为 什么 写 这 本 书 


























要 回答 这 个 问题 ， 需 要 从 我 个 人 的 经 历 说 起 。 说 来 居 愧 ， 我 第 一 次 接触 计算 机 是 在 高 三 。 当 时 跟 大 家 一 起 去 网 吧 玩 CS， 跟 身边 的 同学 学 怎么 “ 玩 ”。 正 是 通过 这 种 “ 玩 ” 的 过 程 ， 让 我 了 解 到 计算 机 并 


没有 那么 神秘 ， 它 也 只 是 台 机 器 ， 用 起 来 似乎 并 不 比 打开 电视 机 费劲 多 少 。 高 考 填 志 愿 的 时 候 ， 任 着 直觉 “ 糊 里 糊涂 ”就 选择 了 计算 机 专业 。 等 到 真正 学 习 计算 机 课程 的 时 候 却 又 发 现 ， 它 其 实 很 难 ! 











早 在 2004 年 ， 还 在 学 校 的 我 跟 很 多 同学 一 样 ， 喜 欢 看 Flash， 也 喜欢 谈论 Flash 甚 至 做 Flash。 感 觉 Flash 正 妈 

















0 它 的 名 字 那 样 “ 闪 光 ”。 那 些 年 ， 在 学 校 里 ， 知 道 Flash 的 人 可 要 比 知道 Java 的 人 多 得 多 ， 这 














说 明 当 时 的 Flash 十 分 火热 。 此 外 ，Oracle 也 成 为 关系 型 数据 库 里 的 领军 人 物 ， 很 多 人 甚至 觉得 懂 Oracle 要 比 懂 Flash、Java 及 其 他 数据 库 要 厉 审 





2007 年 ， 我 刚刚 参加 工作 不 久 。 那 时 Struts1、 


























Spring、Hibernate 几 乎 可 以 称 为 那些 用 Java 作 为 开发 语言 的 软件 公司 的 三 驾 马 车 。 很 快 ，Struts2 蔡 代 了 struts1 的 地 位 ， 让 我 第 一 次 意识 到 IT 领域 的 技 
术 更 新 竟然 如 此 之 快 ! 随 着 很 多 传统 软件 公司 向 互联 网 公司 转型 ，Hibernate 也 难以 确保 其 地 位 ，iBATIS 诞 生 了 ! 














当时 很 多 公司 上 














2010 年 ， 有 关 Hadoop 的 技术 图 书 涌 入 中 国 ， 





念 在 网 上 炒 得 火热 ， 当 时 依然 在 做 互联 网 开发 的 我 ， 








它 只 是 为 了 数据 统计 、 数 据 挖掘 或 者 搜索 。 一 开始 ， 人 们 对 了 


























对 其 只 是 “道听途说 ”。 后 





FHadoop 的 认识 和 使 用 可 能 相对 有 限 。 大 约 2011 年 的 时 候 ， 关 于 云 计 算 的 概 











来 跟 同 事 借 了 一 本 有 关 云 计算 的 书 ， 回 家 挑 着 看 了 一 些 内 容 ， 也 没什么 收获 ， 帐 然 若 失 ! 20 世 纪 60 年 代 ， 美 国 的 军用 网 络 作 





为 互联 网 的 雏形 ， 很 多 内 容 已 经 与 云 计算 中 的 某 些 说 法 类 似 。 到 20 世 纪 80 年 代 ， 














2012 年 ， 国 内 又 呈现 出 大 数据 热 的 态势 。 从 国 

















REN, AA. ITS 





也 找 来 一 些 Hadoop 的 书籍 进行 学 习 ， 希 望 能 在 其 中 探索 到 大 数据 的 奥妙 。 





有 幸 在 工作 过 程 中 接触 到 阿里 的 开放 数据 处 理 | 


有 幸 认识 和 仲 ， 跟 他 学 习 了 阿里 的 实时 多 维 分 析 平 台 一 一 Garuda 和 实时 计算 平台 一 一 Galaxy 的 部 分 知识 。 





所 有 领域 ， 人 人 都 在 谈 大 数据 。 我 的 亲 















































互联 网 就 已 经 启用 了 云 计 算 ， 如 今 为 什么 又 要 重 提 这 样 的 概念 ?这 个 问题 我 可 能 回答 不 了 ， 还 是 交 给 历史 吧 。 





























威 朋 友 中 ， 无 论 老师 、 销 售 人 员 ， 还 是 工程 师 们 都 可 以 针对 大 数据 谈 谈 自己 的 看 法 。 我 


R35 (open data processing service, ODPS) ， 并 且 基 于 ODPS 与 其 他 小 伙伴 一 起 构建 阿里 的 大 数据 商业 解决 方案 一 一 御膳 房 。 去 杭州 出 差 的 过 程 中 ， 









































和 仲 推荐 我 阅读 Spark 的 源码 ， 这 样 会 对 实时 计算 及 流 式 计算 有 更 深入 的 了 解 。2015 年 春节 期 





间 ， 自 己 初次 上 网 查阅 Spark 的 相关 资料 学 习 ， 开 始 研究 Spark 源 码 。 还 记得 那 时 只 是 出 于 对 大 数据 的 热爱 ， 想 使 自己 在 这 方面 的 技术 能 力 有 所 提升 。 

















从 阅读 Hibernate 源 码 开始 ， 到 后 来 阅读 Tomcat、Sspring 的 源码 ， 我 也 在 从 学 习 源 码 的 过 程 中 成 长 ， 我 对 源码 阅读 也 越 来 越 感 




















w 
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趣 。 随 着 对 Spark 源 码 阅读 的 深入 ， 发 现 很 多 内 容 从 网 上 找 不 到 答案 ， 


只 能 自己 “ 硬 路” 了 。 随 着 自己 的 积累 越 来 越 多 ， 突 然 有 一 天 发 现 ， 我 所 总 结 的 这 些 内 容 好 像 可 以 写成 一 本 书 了 ! 从 闪光 (Flash) 到 火花 (Spark) ， 足 足 有 11 个 年 头 了 。 无 论 是 Flash、Java， 还 是 





Spring、iBATIS， 我 一 直 扮演 着 一 个 追随 者 ， 我 接受 这 些 书籍 的 洗礼 ， 从 未 给 予 。 如 今 我 也 是 Spark 的 追随 者 ， 不 同 的 是 ， 我 不 再 只 想 简 自 























最 后 还 想 说 一 下 ，2016 年 是 我 从 事 IT 工 作 的 第 10 个 生 





本 书 特色 


“ 按照 源码 分 析 的 习惯 设计 ， 从 脚本 分 析 到 初始 化 再 到 核心 内 容 ， 最 后 介绍 Spatk 的 扩展 内 容 。 





“ 本 书 涉及 的 所 有 内 容 都 有 相应 的 例子 ， 以 便于 读者 对 源码 的 深入 研究 。 





“ 本 书 尽 可 能 用 图 来 展示 原理 ， 加 速 读者 对 内 容 的 掌握 。 

















FE 头 ， 此 书 特别 作为 送 给 自己 的 10 周 年 礼物 。 

















“ 本 书 讲解 的 很 多 实现 及 原理 都 值得 借鉴 ， 能 帮助 读者 提升 架构 设计 、 程 序 设计 等 方面 的 能 力 。 


“ 本 书 尽 可 能 保留 较 多 的 源码 ， 以 便于 初学 者 能 够 在 像 地铁 、 公 交 这 样 的 地 方 ， 也 能 轻松 阅读 。 


读者 对 象 

















抽取 ， 还 要 给 予 。 


整个 过 程 遵 循 由 浅 入 深 、 由 深 到 广 的 基本 思路 。 


源码 阅读 是 一 项 苦 差 事 ， 人 力 和 时 间 成 本 都 很 高 ， 尤 其 是 对 于 Spark 陌 生 或 者 刚刚 开始 学 习 的 人 来 说 ， 难 度 可 想 而 知 。 本 书 尽 可 能 保留 源码 ， 使 得 分 析 过 程 不 至 于 产生 跳跃 感 ， 目 的 是 降低 大 多 数 人 的 
学 习 门 槛 。 如 果 你 是 从 事 IT 工 作 1~3 年 的 新 人 或 者 是 希望 学 习 Spark 核 心 知识 的 人 ， 本 书 非常 适合 你 。 如 果 你 已 经 对 Spark 有 所 了 解 或 者 已 经 在 使 用 它 ， 还 想 进 一 步 提高 自己 ， 那 么 本 书 更 适合 你 。 





























如 果 你 是 一 个 开发 新 手 ， 对 Java、Linux 等 基础 知识 不 是 很 了 解 ， 那 么 本 书 可 能 不 太 适 合 你 。 如 果 你 已 经 对 Spark 有 深入 的 研究 ， 本 书 也 许可 以 作为 你 的 参考 资料 。 


总 体 说 来 ， 本 书 适 合 以 下 人 群 : 


+ 想 要 使 用 Spatk， 但 对 Spatk 实 现 原理 不 了 解 ， 


不 知道 怎么 学 习 的 人 ; 


“ 大 数据 技术 爱好 者 ， 以 及 想 深入 了 解 Spatk 技 术 内 部 实现 细节 的 人 ; 


+ 有 一 定 Spatrk 使 用 基础 ， 但 是 不 了 解 Spatk 技 术 内 部 实现 细节 的 人 ; 


+ 对 性 能 优化 和 部 署 方案 感 兴趣 的 大 型 互联 网 工程 师 和 架构 师 ; 


“ 开源 代码 爱好 者 。 喜 欢 研究 源码 的 同学 可 以 从 本 书 学 到 一 些 阅 读 源码 的 方式 与 方法 。 














本 书 不 会 教 你 如 何 开 发 Spark 应 用 程序 ， 只 是 




















一 些 经 典 例 子 演示 。 本 书简 和 

















些 框架 的 使 用 ， 因 为 市 场 上 已 经 有 丰富 的 这 类 书籍 供 读者 挑选 。 本 书 也 不 会 过 多 介绍 Scala、Java、Shell 的 语法 ， 读 者 可 以 在 人 








如 何 阅读 本 书 


本 书 分 为 三 大 部 分 (不 包括 附录 ) : 


介绍 Hadoop MapReduce, Hadoop YARN, Mesos, Tachyon, ZooKeeper, HDFS, Amazon S$3， 但 不 会 过 多 介绍 这 





准备 篇 (第 1~2 章 ) ， 简 单 介绍 了 Spark 的 环境 搭建 和 基本 原理 ， 帮 助 读者 了 解 一 些 背景 知识 。 








生 场 上 选择 适合 自 





核心 设计 篇 (第 3~7 章 ) ， 着 重 讲解 SparkContext 的 初始 化 、 存 储 体 系 、 任 务 提交 与 执行 、 计 算 引 擎 及 部 署 模式 的 原理 和 源码 分 析 。 











扩展 篇 (第 8~11 章 ) ， 主 要 讲解 基于 Spark 核 心 的 各 种 扩展 及 应 用 ， 包 括 : SQL 处 理 引擎 、Hive 处 理 、 流 式 计算 框架 Spark Streaming, E 















































本 书 最 后 还 添加 了 几 个 附录 ， 包 括 : 附录 A 介绍 的 Spark 中 最 常用 的 工具 类 Utils; 附录 B 是 Akka 的 简介 与 工具 类 AkkaUtils 的 介绍 ; 


简介 和 测量 容器 MetricRegistry 的 介绍 ; 附录 E 演 示 了 Hadoop1.0 版 本 中 的 


























列举 了 笔者 编译 Spark 源 码 时 遇 到 的 问题 及 解决 办 法 。 











word count 例 子 ; 附录 F 介 绍 了 工具 类 CommandUtils 的 常用 方法 ; 


己 的 书籍 阅读 。 








计算 框架 GraphX、 机 器 学 习 库 MLlib 等 内 容 。 





RCH 

















etty 的 简介 和 工具 类 JettyUtils 的 介绍 ;附录 D 为 Metrics 库 的 
































附录 G 是 关于 Netty 的 简介 和 工具 类 NettyUtils 的 介绍 ; 附录 H 


E， 有 兴趣 的 读者 也 可 按照 本 





为 了 降低 读者 阅读 理解 Spark 源 码 的 门槛 ， 本 书 尽 可 能 保留 源码 实现 ， 希 望 读 者 能 够 怀 着 一 颗 好 奇 的 心 ，Spark 当 前 很 火热 ， 其 版 本 更 新 也 很 快 ， 本 书 以 Spark 1.2.3 版 本 为 3 
书 的 方式 ， 阅 读 Spark 的 最 新 源码 。 


勘误 和 支持 
本 书 内 容 很 多 ， 限 于 笔者 水 平 有 限 ， 书 中 内 容 难免 有 错误 之 处 。 在 本 书 出 版 后 的 任何 时 间 ， 如 果 你 对 本 书 有 任何 问题 或 者 意见 ， 都 可 以 通过 邮箱 beliefer@163.com 或 博 
客 http://www.cnblogs.com/jiaan-geng/ 联 系 我 ， 说 出 你 的 建议 或 者 想法 ， 希 望 与 大 家 共同 进步 。 
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KBE 于 北京 


准备 篇 


-RIE ”环境 准备 


. 第 2 章 ”Spark 设计 理念 与 基本 架构 


第 1 章 “环境 准备 


AFRUZ, TRUR; SHR, MAB; 事前 定 ， 则 不 困 。 
一 一 《 礼 记 . 中 庸 》 


本 章 导读 
在 深入 了 解 一 个 系统 的 原理 、 实 现 细节 之 前 ， 应 当先 准备 好 它 的 源码 编译 环境 、 运 行 环境 。 如 果 能 在 实际 环境 安装 和 运行 Spark， 显 然 能 够 提升 读者 对 于 Spa 让 的 一 些 感受 ， 对 系统 能 有 个 大 体 的 印象 ， 有 


经 验 的 技术 人 员 甚 至 能 够 猜 出 一 些 Spatk 采 用 的 编程 模型 、 部 署 模式 等 。 当 你 通过 一 些 途 径 知 道 了 系统 的 原理 之 后 ， 难 道 不 会 问 问 自己 : “这 是 怎么 做 到 的 ? ”如 果 只 是 游 走 于 系统 使 用 、 原 理 了 解 的 层面 ， 


是 永远 不 可 能 真正 理解 整个 系统 的 。 很 多 IDE 本 身 带 有 调试 的 功能 ， 每 当 你 阅读 源码 ， 陷 入 重围 时 ， 调 试 能 让 我 们 更 加 理解 运行 期 的 系统 。 如 果 没 有 调试 功能 ， 不 到 想象 阅读 源码 会 怎样 困难 。 
本 章 的 主要 目的 是 帮助 读者 构建 源码 学 习 环境 ， 主 要 包括 以 下 内 容 : 
“ 在 Windows 环 境 下 搭建 源码 阅读 环境 ; 
“ 在 Linux 环 境 下 搭建 基本 的 执行 环境 ; 


+ Spatk 的 基本 使 用 ， 如 spatk-shell。 


1.1 ”运行 环境 准备 


























了 64 位 的 Linux。 在 正式 安装 Spark 之 前 ， 先 要 找 台 好 机 器 。 为 什么 ? 因为 笔者 在 安装 、 编 译 、 调 试 的 过 程 中 发 现 Spark 非 常 耗 




















考虑 到 大 部 分 公司 的 开发 和 生成 环境 都 采用 Linux 操 作 系 统 ， 所 以 笔者 选 F 


费 内存 ， 如 果 机 器 配置 太 低 ， 丽 怕 会 跑 不 起 来 。Spark 的 开发 语言 是 Scala， 而 Scala 需 要 运行 在 JVM 之 上 ， 因 而 搭建 Spark 的 运行 环境 应 该 包括 JDK 和 Scala。 





1.1.1 安装 JDK 








使 用 命令 getconf LONG_BIT 查 看 Linux 机 器 是 32 位 还 是 64 位 ， 然 后 下 载 相应 版 本 的 JDK 并 安装 。 








下 载 地 址 : 


http://www.oracle.com/technetwork/java/javase/downloads/index.html 


配置 环境 : 





cd ~ 
vim .bash_profile 





添加 如 下 配置 : 





export JAVA_HOME=/opt/java 
export PATH=$PATH: SJAVA_HOME/bin 
export CLASSPATH=.: $JAVA_HOME/1ib/dt .Jar: S$JAVA HOME/1ib/tools sa 





由 于 笔者 的 机 器 上 已 经 安装 过 openjdk， 所 以 未 使 用 以 上 方式 ，openjdk 的 安装 命令 如 下 : 





$ su -c "yum install java-1.7.0-openjdk" 








安装 完毕 后 ， 使 用 ava-version 命 令 查看 ， 确 认 安装 正常 ， 如 图 1-1 所 示 。 


[smeacv218142118 ~]$ java -version 
java version “1.7.0_51" 














Java(™) SE Runtime Environment (build 1.7.0_51-b13) 
OpenJDK (elute) 64-Bit Server WW (build 24.45-b08-internal, mixed mode) 





图 1-1 查看 安装 是 否 正常 


1.1.2 Scala 


下 载 地 址 : http://www.scala-lang.org/download/ 


选择 最 新 的 Scala 版 本 下 载 ， 下 载 方 法 如 下 : 





wget http://downloads.typesafe.com/scala/2.11.5/scala-2.11.5.tgz 





移动 到 选 好 的 安装 目录 ， 例如: 





mv scala-2.11.5.tgz ~/install/ 





进入 安装 目录 ， 执 行 以 下 命令 : 





chmod 755 scala-2.11.5.tgz 
tar -xzvf scala-2.11.5.tgz 





配置 环境 : 





vim .bash_profile 





添加 如 下 配置 : 





export SCALA HOME=SHOME/install/scala-2.11.5 
export PATH=$PATH:$SCALA_HOME/bin:$HOME/bin 








安装 完毕 后 输入 scala， 进 入 scala 命 令 行 说 明 scala 安 装 正 确 ， 如 图 1-2 所 示 。 


le @v218142118 ~]$ scala 


welcome to Scala version 2.11.5 (OpenJDK (AER) 64-Bit Server WM, Java 1.7.0_51). 
Type in expressions to have them evaluated. 


Type :help for more information. 


scala> | 








1-2 ”进入 scala 命 令 行 











1.1.3 ”安装 Spark 
下 载 地 址 : http://spark.apache.org/downloads.html 


选择 最 新 的 Spark 版 本 下 载 ， 下 载 方法 如 下 : 





wget http://archive.apache.org/dist/spark/spark-1.2.0/spark-1.2.0-bin-hadoopl .tgz 





移动 到 选 好 的 安装 目录 ， 如 : 





mv spark-1.2.0-bin-hadoopl.tgz~/install/ 





进入 安装 目录 ， 执 行 以 下 命令 : 





in-hadoop1.tgz 
in-hadoop1.tgz 


chmod 755 spark-1.2. 


0-b: 
tar -xzvf spark-1.2.0-b 





配置 环境 : 





ed. « 
vim .bash_profile 





添加 如 下 配置 : 





export SPARK_HOME=$HOME/install/spark-1.2.0-bin-hadoop1 





1.2 Spark 初 体验 
本 节 通 过 Spark 的 基本 使 用 ， 让 读者 对 Spark 能 有 初步 的 认识 ， 便 于 引导 读者 逐步 深入 学 习 。 
1.2.1 运行 spark-shell 


要 运行 spark-shell， 需 要 先 对 Spark 进 行 配置 。 


1) 进入 Spark 的 conf 文 件 夹 : 





cd ~/install/spark-1.2.0-bin-hadoop1/conf 





2) 复制 一 份 spark-env.sh.template， 命 名 为 spark-env.sh， 对 它 进行 编辑 ， 命 令 如 下 : 





cp spark-env.sh.template spark-env.sh 
Vim spark-env.sh 





3) 添加 如 下 配置 : 





export SPARK MASTER IP=127.0.0.1 
export SPARK LOCAL IP=127.0.0.1 





4) 启动 spark-shell: 





cd ~/install/spark-1.2.0-bin-hadoop1/bin 
./spark-shell 





最 后 我 们 会 看 到 spark 启 动 的 过 程 ， 如 图 1-3 所 示 。 





15/07/09 11:24:50 INFO PEEN: Starting HTTP Server 
15/07/09 11:24:50 INFO Utils: Successfully started service 'HTTP class server" on port 41859. 


cay ee tae 
A LESAN version 1.2.0 


Using Scala version 2.10.4 (OpenJDK a) 64-bit Server VM, Java 1.7.0_51) 
Type in expressions to have them evaluated. 
pe :help for more information. 


15/07/09 11:24:55 INFO SecurityManager: Changing view acls to: 
2:24:55 INFO SecurityManager: Changing modify acls t 

724: INFO Securitymanager: Ssecuritymanager: authentication disabled; ui acis disabled; users wit 
; ) 


users with modify permissions: Set 
6 INFO Sif4jLogger: SIf4jLogger starte 
INFO Remoting: starting remoting 
INFO Remoting panor ing started; listening on addresses fe TCP pote nen Ser PROCHI NOSES 
INFO Utils: ec es stu y started service sparkDriver’ on port 32877. 
INFO SparkEnv: Registering MapOutputtTracker 
INFO SparkEnv: Registering 6 lockManagerMaster 
INFO DiskSlockManager: Created local directory at /tmp/spark-local-20150709112456-2a8c 
INFO MemoryStore: MemoryStore started with capacity 265.4 MB 
INFO HttpFileServer: HTTP File server directory is /tmp/spark-137e7 243-7 Sbf-42e5-99d3-e53a5 
INFO Htt Soap Starting HTTP Server 
INFO Utils: Successfully started service ‘HTTP file server’ on aie 33509. 
INFO utils: Successfully started service ‘SparkUI" on port 4040 
INFO SparkuI: Started Sparkut at http://localhost:4040 
INFO Executor: Using REPL class URI: http://127.0.0.1:41859 
INFO AkkaUtils: Connecting to HeartbeatReceiver: akka.tcp://sparkbDriver@localhost : 32877 /use 


INFO NettyBlockTransferService: Server created on 50794 
INFO BlockManagerMaster: Trying to register BlockManager 
INFO BlockManagerMasterActor: Registering block manager localhost:50794 with 265.4 MB RAM, 
iver>, localhost, 50794) 
15/07/09 11:24:57 INFO BlockManagerMaster: Registered BlockManager 
15/07/09 11:24:57 INFO SparkILoop: Created spark context.. 
Spark context available as sc. 


scala f 





图 1-3 Spark 启动 过 程 


从 以 上 启动 日 志 中 我 们 可 以 看 到 SparkEnv、MapOutputTracker、BlockManagerMaster、DiskBlockManager、MemoryStore、HttpFileServer、SparkUl 等 信息 。 它 们 是 做 什么 的 ?此 处 望 文生 义 
即 可 ， 具 体内 容 将 在 后 边 的 章节 详细 讲解 。 





1.2.2 执行 word count 


这 一 节 ， 我 们 通过 word count 这 个 耳熟能详 的 例子 来 感受 下 Spark 任 务 的 执行 过 程 。 启 动 spark-shell 后 ， 会 打开 scala 命 令 行 ， 然 后 按照 以 下 步骤 输入 脚本 。 





1) 输入 val lines=sc.textFile (“http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/../README.md", 2) ， 执 行 结果 如 图 
1-4 所 示 。 





scala> val lines = sc.textFile("../README. md", 2) 

15/07/09 :28: INFO MemoryStore: ensureFreeSpace(32768) called with curMem—0, maxMem-278302556 

15/07/09 11:28:48 INFO MemoryStore: Block broadcast_O stored as values in memory (estimated size 32. 

15/07/09 “ZE INFO MemoryStore: ensurefreeSpace(4959) called with curMem=32768 , maxMem=27 8302556 
INFO MemoryStore: Block broadcast_0 pieceO stored as bytes in memory (estimated si 


INFO BlockManageriInfo;: Added broadcast_O_ pray in memory on localhost:42659 (size 
INFO BlockManagerMaster: Updated info of block broadcast_0_pieced 

15/07/09 11:28:48 INFO SparkContext: Created broadcast O from textFile at <console>:1? 

lines: org. apache. spark.rdd.rRDp[String] = ../README.md MappedRDD[1] at textFile at <comsole>:12 





图 1-4 ”步骤 1 执行 结果 





2) 输入 val words=lines.flatMap (line=>line.split ("") ) ， 执 行 结果 如 图 1-5 所 示 。 











scala> val words = lines.flatMap(line => line.split(” “)) 
words: org.apache.spark.rdd.RDD[String] = F1atMappedRDD[2] at flatMap at «<console»:14 





图 1-5 ”步骤 2 执行 结果 


3) 输入 val ones=words.map (w=> (w，1) )， 执行 结果 如 图 1-6 所 示 。 





scala> val ones = words.map(w => (w,1)) 
ones! org. apache. spark.rdd. Rpp[ (string, Int) ] = Mappedroo(3) at map at <console>:16 





图 1-6 ”步骤 3 执行 结果 





4) 输入 val counts=ones.reduceByKey (_+_) ， 执 行 结果 如 图 1-7 所 示 。 











scala> val Counts = ones.reducesykeyC_ + _) 
15/07/09 11:29:10 WARN NativecodeLoader: Unable to load native-hadoop library for your platform... 
here yh A et e 

11:29:10 WARN LoadSnappy: Snappy native library not loaded 


15/07/ 
15/07/09 11:29:10 INFO FiletnputFormat: Total input paths to process 
counts: org. apache. spark.rdd.RDD[ (string, Int)] = shuffledrop[4] at es AS at <console>:18 





图 1-7 ”步骤 4 执行 结果 





R] 


5) 输入 counts.foreach (printIn) ， 任 务 执行 过 程 如 图 1-8 和 图 1-9[1] 所 示 。 输 出 结果 如 图 1-10 所 示 。 


























scala> counts. foreach(printin) 
15/07/09 11:29:31 INFO Sparkcontext: Starting job: foreach at <console>:21 
15/07/09 11:29:31 INFO DAGScheduler: Register? RDD 3 (map at <console>:16) 

15/07/09 11:29:31 INFO DaAGSCcheduler: GOT 1% 0 (foreach at <console>:21) with 2 output part 

15/07/09 11:29:31 INFO DAGSCheduler: Final stage; Stage 1(foreach at <console>:21) 
15/07/09 :29: INFO DAGScheduler: Parents of fina! stage: ae 0) 
15/07/09 :29: INFO DAGScheduler: Missing parents: Conese © 
15/07/09 :29 : DAGScheduler: Submitting Stage O (Map a at map at <console>:14q 
15/07/09 :29: MemoryStore: rr ecole) BATPH with curMem-37727, maxMem- 
15/07/09 :29: MemoryStore: Block broadcast_1 stored as values in memory (esti mated 
15/07/09 229; MemoryStore; ensureFreeSpace(2502) called with curMem=41271, maxMem=2 
15/07/09 nf a ete -0 MemoryStore: Block broadcast_l_pieceO stored as bytes in memory (esti 
15/07/09 =f ie Ite BlockManagerInfo: Added broadcast_1_ pees in memory on localhost :426 
15/07/09 :29 : BlockManagerMaster: Updated info of block broadcast_1_piece0 
15/07/09 “29 : Sparkcontext: Created broadcast 1 from broadcast at DAGSchedu ler. scal 
15/07/09 :29: DAGScheduler: Submitting 2 missing tasks from ar O (MappedRDD[3] a 
15/07/09 2293 TaskschedulerImp!: Adding task set 0.0 with 2 tasks 
15/07/09 e TasksetManager : Starting task 0.0 in stage 0.0 (TID O, localhost, PRG 
15/07/09 a2 9% Tasksetmanager : Starting task 1.0 in stage 0.0 (TID 1, localhost, 
15/07/09 +29: FO Executor: Running task 1.0 in stage 0.0 crip oY 
15/07/09 :29 : Executor: Running task 0.0 in stage 0.0 (TID 0 


15/07/09 :29:3 | HadoopRDD: Input split: file: /home/jiaan.gja/instal]1/spark-1. 


15/07/09 :29 :: HadoopRDD: Input split: file: /home/jiaan. py es yd -1. 
15/07/09 :29: : Executor: Finished task 1.0 in stage 0.0 ceed 1). 1896 ibe 

15/07/09 29:2 Executor: Finished task 0.0 in stage 0.0 (TID 0). 1896 bytes 

15/07/09 22933 TasksetManager: Finished task 1.0 in stage 0.0 (TID 1) in 409 ms on | 
15/07/09 11:29: pacschedu ler : “be O (map at <console>:16) finished in 0.438 s 
15/07/09 7:29:32 | DAGSCheduler: ing for newly runnable stages 

15/07/09 :29: DAGScheduler: running: et 

15/07/09 :229 :: DAGScheduler: waiting: Set(Stage 1) 

15/07/09 :29: DAGScheduler: failed: set() 

15/07/09 :29: TaskSetManager: Finished task 0.0 in stage 0.0 (TID 0) in 426 ms on 
15/07/09 s29: DAGScheduler: Missing parents for Stage 1: List() 

15/07/09 229: TaskschedulerInpl: Removed Taskset 0.0, whose tasks have all complete 
15/07/09 :29: paGscheduler: submitting stage 1 (shuffledrpp[4] at reduceByKey at < 
15/07/09 7 i MemoryStore: ensur eFreeSpacet?152} called with curMem=43773, maxMem=2 
15/67/09 :29: MemoryStore: Block broadcast_2 stored as values in memory (estimated 
15/07/09 11:29: MemoryStore: ensureFreeSpace(1571) called with curMem=45925, maxMem= 
15/07/09 729: MemoryStore: Block broadcast_2_piece0 stored as bytes in memory (esti 
15/07/09 :29 : BlockManagerInfo: Added broadcast_2_pieceO in memory on localhost :426 
15/07/09 nF ase i BlockManagerMaster;: Updated info of tik broadcast_2_pieceOd 

15/07/09 729: Sparkcontext: Created broadcast 2 from broadcast at DAGScheduler.sca] 
15/07/09 :29: DAGSCheduler: Submitting 2 missing tasks from Stage 1 (ShuffledRDD[4] 
15/07/09 FAREY TaskschedulerInpl: Adding task set 1.0 with 2 tasks 











1-8 步骤 5 执行 过 程 部 分 (一 ) 


11:29:32 TaskSetManager: Starting task 0.0 in stage 1.0 (TID 2, 
15/07/09 11:29:32 I TaskSetManager: Starting task 1.0 in stage 1.0 (TID 3, localhost, PROCESS 
15/07/09 11:29:32 Executor: Running task 0.0 in stage 1.0 (TID 2) 
15/07/09 11:29:32 Executor: rohit task 1.0 in stage 1.0 (TID 3) 
erIterator: Getting 2 non-empty blocks out of 2 blocks 








15/07/09 11:29:32 Shuffles lockFetc 
15/07/09 11:29:32 shuffles lockFetcherIterator: Getting 2 non-empty blocks out of 2 blocks 
15/07/09 11:29:32 shuffles lockFetcherlterator: Started 0 remote fetches in 5 ms 
15/07/09 11:29:32 -O ShuffleblockFetcheriterator: Started 0 remote fetches in 5 ms 











Al-9 ”步骤 5 执行 过 程 部 分 (二 ) 








Chigher-level,1) 
(need ,1) 
ae 
Big,1) 
(guide, ,1) 
(<class>,1) 


(requires,1) 

' 
(Documentation,1) 
Ce 


cluster ,2) 

(using: ,1) 

METIE i) 

(shell: ,2) 

ER A tet 

supports,2) 

(bukit. 23 

(. /dev/run-tests,1) 

15/07/09 11:29:32 INFO Executor: Finished task 1.0 in stage 1.0 (TID 3). 824 bytes result sent 
Csample,1) 

15/07/09 11:29:32 INFO Executor: Finished task 0.0 in stage 1.0 (TID 2). 824 bytes result sent 
15/07/09 11:29:32 INFO TaskSetManager: Finished task 1.0 in sra 1.0 (TID 3) in 138 ms on loca 
15/07/09 11:29:32 INFO DAGScheduler: Stage 1 (foreach at <console>:21) finished in 0.131 s 
15/07/09 11:29:32 INFO TaskSetManager: Finished task 0.0 in stage 1.0 (TID 2) in 142 ms on loca 
15/07/09 11:29:32 INFO TaskSchedulerImp!]: Removed TaskSet 1.0, whose tasks have all completed, 
15/07/09 11:29:32 INFO DAGScheduler: Job 0 finished: foreach at <console>:21, took 0.733306 s 





图 1-10 ”步骤 5 输出 结果 








在 这 些 输出 日 志 中 ， 我 们 先是 看 到 Spark 中 任务 的 提交 与 执行 过 程 ， 然 后 看 到 单词 计数 的 输出 结果 ， 最 后 打印 一 些 任务 结束 的 日 志 信息 。 有 关 任 务 的 执行 分 析 ， 笔 者 将 在 第 5 章 中 展开 。 





通过 word count 在 spark-shell 中 执行 的 过 程 ， 我 们 想 看 看 spark-shell 做 了 什么 。spark-shell 中 有 以 下 一 段 脚 本 ， 见 代码 清单 1-1。 





代码 清单 1-1 spark-shell 中 的 一 段 脚本 





function main() { 
if Scygwin; then 
stty -icanonmin 1 -echo > /dev/null 2>&1 
export SPARK_SUBMIT_OPTS="$SPARK_SUBMIT_OPTS -Djline.terminal=unix" 
"SFWDIR"/bin/spark-submit --class org.apache.spark.repl.Main "${SUBMISSION OPTS[@]}" spark-shell "${APPLICATION OPTS[@]}" 
sttyicanon echo > /dev/null 2>&1 T v 
else 
export SPARK SUBMIT_OPTS 
"$FWDIR"/bin/spark-submit --class org.apache.spark.repl.Main "${SUBMISSION_OPTS[@]}" spark-shell "${APPLICATION_OPTS[@]}" 





我 们 看 到 脚本 spark-shell 里 执行 了 spark-submit 脚 本 ， 打 开 spark-submit 脚 本 ， 发 现 其 中 包含 以 下 脚本 。 





exec "SSPARK_HOME"/bin/spark-class org.apache.spark.deploy.SparkSubmit "${ORIG_ARGS[@]}" 








脚本 spark-submit 在 执行 spark-class 脚 本 时 ， 给 它 增加 了 参数 SparkSubmit。 打 开 spark-class 脚 本 ， 其 中 包含 以 下 脚本 ， 见 代码 清单 1-2。 


代码 清单 1-2 spark-class 





if [ -n "${JAVA HOME}" ]; then 
RUNNER="$ { JAVA_HOME}/bin/java" 
else T 
if [ ‘command -v java`ò ]; then 
RUNNER="java" 
else 
echo "JAVA HOME is not set" >&2 
exit 1 
fi 
fi 
exec "SRUNNER" -cp "SCLASSPATH" $JAVA OPTS "$@" 





读 到 这 里 ， 应 该 知道 Spark 启 动 了 以 SparkSubmit 为 主 类 的 jvm 进 程 。 








为 便于 在 本 地 对 Spark 进 程 使 用 远程 监控 ,给 spark-class 脚 本 追加 以 下 jmx 配 置 : 











JAVA_OPTS="-XX:MaxPermSize=128m SOUR_JAVA_OPTS -Dcom.sun.management.jmxremote -Dcom.sun.management .jmxremote.port=10207 -Dcom.sun.management.jmxremote.authenticate=false -Dcom. 








在 本 地 打开 jvisualvm， 添 加 远程 主机 ， 如 图 1-11 所 示 。 














EHO: lo2slatd | 


TRTE W: 


图 1-11 添加 远程 主机 





右 击 已 添加 的 远程 主机 ， 添 加 JMX 连 接 ， 如 图 1-12 所 示 。 











六 添加 JMX 连接 


SEE): |10. 218. 142.118: 10207 
连接 外 


HH: EES 或 service: jam: <P>: teap 
FETAI: |10. 216. 142.118: 10207 


CASS Fic E) 


mee: | | 
aso | 


[ HESS AE G) 


图 1-12 ”添加 JMX 连 接 





单 击 右 侧 的 “线程 ”选项 卡 ， 选 择 main 线 程 ， 然 后 单 击 “ 线 程 Dump” 按 钮 ， 如 图 1-13 所 示 。 














从 dump 的 内 容 中 找到 线程 main 的 信息 ， 如 代码 清单 1-3 所 示 。 





EM 10 218. 142. 118 


fy 10.218. 142. 118:10207 (pid 28233) 


ie hes 





© 10. 218. 142. 118:10207 (pid 28233) 





ER 


57 
‘ 


Tng | 





| 时 间 线 | 表 | 详细 信息 x 


a a a| an 

续 程 - 

GI RAT ICP Accept 

E JIT Moni tor 

DSignel Dispatcher 
OFinclizor 

El Reference Handler 

O mair 

O sparkDriver-akka. actor. de.. 
O sparkDriver-aokko. actor. de... 


M cmv lM nataw da 


ECEN 


mmz m E OFF Bat 





代码 清单 1-3 main 线程 dump 信 息 





图 1-13 ”查看 Spark 线 程 





"main" - Thread t@1 
java.lang.Thread.State: RUNNABLE 
at 


scala.tools 
scala.tools 
scala.tools 
java: 933) 

at scala.tools 
at scala.tools 
at scala.tools 


.jline. 
.jline. 
.jline.console 
console 
console 
console 


.jline, 
.jline. 
.jline， 


java.io.FileInputStream. read0 (Native Method) 

java.io.FileInputStream. read (FileInputStream. java:210) 

TerminalSupport .readCharacter (Terminal Support. java:152) 
UnixTerminal . readVirtualKey (UnixTerminal .java:125) 


.ConsoleReader. readVirtualKey (ConsoleReader. 


.ConsoleReader. readBinding (ConsoleReader. java:1136) 
.ConsoleReader . readLine (ConsoleReader.java:1218) 
.ConsoleReader. readLine (ConsoleReader.java:1170) 


at org.apache.spark. rep] .SparkJLineReader . readOneLine (SparkJLineReader. 


scala:80) 


at scala.tools.nsc. interpreter. InteractiveReader$class.readLine (Interactive- 


Reader.scala:43) 

at org.apache.spark. 
at org.apache.spark. 
at org.apache.spark. 
at org.apache.spark.repl. 
at org.apache.spark.repl. 
(SparkI-Loop.scala: 968) 
at org.apache.spark.repl. 
scala:916) 

at org.apache.spark.repl. 
scala: 916) 


repl. 
repl. 
repl. 


SparkJLineReader . readLine (SparkJLineReader.scala:25) 
SparkILoop. readOneLine$1 (SparkILoop.scala:619) 
SparkILoop.innerLoop$1 (SparkILoop.scala: 636) 
SparkILoop. loop (SparkILoop.scala:641) 
SparkILoop$$anonfun$process$1.apply$mcZ$sp 


SparkILoop$$anonfun$process$1.apply (SparkILoop. 


SparkILoop$$anonfun$process$1.apply (SparkILoop. 


at scala.tools.nsc.util.ScalaClassLoader$.savingContextLoader (ScalaClass 


Loader. 
at org. 


scala:135) 

apache. spark. 
at org.apache.spark. 
at org.apache.spark. 
at org.apache.spark. 
at sun. 
at sun. 
java:57) 


repl.SparkILoop.process (SparkILoop.scala: 916) 
repl.SparkILoop.process (SparkILoop.scala:1011) 

rep] .Main$ .main (Main.scala:31) 

rep] .Main.main (Main.scala) 

reflect .NativeMethodAccessorImp1].invoke0 (Native Method) 

reflect .NativeMethodAccessorImp] . invoke (NativeMethodAccessorImpl. 


at sun.reflect.DelegatingMethodAccessorImp] . invoke (DelegatingMethodAcces-— 


sorimpl.java:43) 


at java.lang. reflect .Method. invoke (Method. java: 606) 

at org.apache.spark.deploy.SparkSubmit$. launch (SparkSubmit.scala:358) 
at org.apache.spark.deploy.SparkSubmit$.main (SparkSubmit.scala:75) 

at org.apache.spark.deploy.SparkSubmit.main (SparkSubmit.scala) 








从 main 线 程 的 栈 信息 中 可 看 出 程序 的 调 有 














顺序 : SparkSubmit.main 一 repl.Main 一 Sparkl-Loop.process。SparklLoop.process 方 法 中 会 调 及 





代码 清单 1-4 initializespark 的 实现 





有 initializeSpark 方 法 ，initializeSpark 的 实现 见 代码 清单 1- 








def initializeSpark() { 
intp.beQuietDuring { 
command (""" 
@transient val sc 
val sc 


={ 


org.apache.spark.repl.Main.interp.createSparkContext () 


println ("Spark context available as sc.") 


sc 


} 


nny 


command ("import org.apache.spark.SparkContext._") 





我 们 看 到 initializeSpark 调 用 了 createSparkContext 方 法 ，createSparkContext 的 实现 见 代码 清单 1-5。 


代码 清单 1-5 createSparkContext 的 实现 


def createSparkContext(): SparkContext = { 
valexecUri = System.getenv ("SPARK EXECUTOR URI") 
valjars = SparkILoop.getAddedJars 7 
valconf = new SparkConf () 
.SetMaster (getMaster () ) 
.setAppName ("Spark shell") 
.setJars (jars) 
.Set ("spark.repl.class.uri", intp.classServer.uri) 
if (execUri != null) { 
conf.set ("spark.executor.uri", execUri) 
} 
sparkContext = new SparkContext (conf) 
logInfo ("Created spark contexthttp: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/..") 
sparkContext T 
} 


























这 里 最 终 使 用 SparkConf 和 SparkContext 来 完成 初始 化 ， 具 体内 容 将 在 第 3 章 讲解 。 代 码 分 析 中 涉及 的 repl 主 要 用 于 与 Spark 实 时 交互 。 

















中 因 截图 时 ， 一 屏 放 不 下 ， 故 分 为 两 图 。 


1.3 “阅读 环境 准备 














准备 Spark 阅 读 环境 ， 同 样 需 要 一 台 好 机 器 。 笔 者 调试 源码 的 机 器 的 内 存 是 8 GB。 源 码 阅读 的 前 提 是 在 IDE 环 境 中 打包 、 编 译 通过 。 常 用 的 IDE 有 IntellJ IDEA、Eclipse。 笔 者 选择 用 Eclipse 编译 
Spark, RAB: 一 是 由 于 使 用 多 年 对 它 比较 熟悉 ， 二 是 社区 中 使 用 Eclipse 编译 Spark 的 资料 太 少 ， 在 这 里 可 以 做 个 补充 。 在 Windows 系 统 编译 Spark 源 码 ， 除 了 安装 JDK 外 ， 还 需要 安装 以 下 工具 。 

































































(1) 安装 Scala 

















由 于 Spark 1.20 版 本 的 sbt 里 指定 的 Scala 版 本 是 2.10.4， 具 体 见 Spark 源 码 目录 下 的 文件 \project\plugins.sbt， 其 中 有 一 行 : scalaVersion: ="2.10.4"。 所 以 选择 下 载 scala-2.10.4.msi， 下 载 地 
址 : http://www.scala-lang.org/download/. 














下 载 完毕 ， 安 装 scala-2.10.4.msi。 


(2) 安装 SBT 





由 于 Scala 使 用 SBT 作 为 构建 工具 ， 所 以 需要 下 载 SBT。 下 载 地 址 : http://www.scala-sbt.org/， 下 载 最 新 的 安装 包 sbt-0.13.8.msi 并 安装 。 


(3) 安装 Git Bash 






































由 于 Spark 源 码 使 用 Git 作 为 版 本 控制 工具 ， 所 以 需要 下 载 Git 的 客户 端 工具 ， 推 荐 使 用 Git Bash， 因 为 它 更 符合 Linux 下 的 操作 习惯 。 下 载 地 址 : http://msysgit.github.io/， 下 载 最 新 的 版 本 并 安装 。 





(4) 安装 Eclipse Scala IDE 插 件 























Eclipse 通过 强大 的 插件 方式 支持 各 种 IDE 工 具 的 集成 ， 要 在 Eclipse 中 编译 、 调 试 、 运 行 Scala 程 序 ， 就 需要 安装 Eclipse Scala IDE 揪 件 。 下 载 地 址 : http://scala-ide.org/download/current.html, 

















由 于 笔者 本 地 的 Eclipse 版 本 是 Eclipse 4.4 (Luna) ， 所 以 选择 安装 插件 http://download.scala-ide.org/sdk/lithium/e44/scala211/stable/site， 如 图 1-14 所 示 。 


Eclipse 4.4 (Luna) 
For Scala 2.11.6 


http://download.scala-ide.org/sdk/lithium/e44/scala211/stable/site 


(if you cannot use the update site, a downloadable local undale site is available vipfile, shaisum) 





图 1-14 Eclipse Scala IDE 插 件 安装 地 址 














在 Eclipse 中 选择 Help 菜 单 ， 然 后 选择 Install New Software... 选 项 ， 打 开 Install 对 话 框 ， 如 图 1-15 所 示 。 


Available Software 


Select a site or enter the location of a site. 


,18 7 
Work with: 


type filter text 


Name 
EO There is no site selected. 


Sic 


Find more software by working with the “Available Software Sites" preferences. 





Details 


Show only the latest versions of available software [V] Hide items that are already installed 


Group items by category 





What is already installed? 


[E] Show only software applicable to target environment 


[7] Contact all update sites during install to find required software 


单 击 Add 按 钮 ， 打 开 Add Repository 对 话 框 ， 输 入 插件 地 址 ， 如 


Name: scalalDE2.10) 


Locatom .scala-ide.org/s 


o 





全 选 插件 的 内 容 ， 完 成 安装 ， 如 图 1-17 所 示 。 








图 1-15 ”Install 对 话 框 





图 1-16 所 示 。 


dk/helium/e38/scala?10/stable/site/ 











1-16 添加 ScalaIDE 插 件 地 址 








Available Software 
Check the items that you wish to install. 


Work with: scalaIDE2.10 - http://download.scala-ideorg/sdk/helium/238/scala210/stable/site/ x 


Find more software by working with the “Available Software Sites” preferences, 








type filter text 








Name 

> | 000 Scala IDE for Eclipse 

> | iN Scala IDE for Eclipse development support 
> | 000 Scala IDE for Eclipse Source Feature 

> YIN Scala IDE plugins (incubation) 


| Deselect Al 14 items selected 


图 1-17 安装 Scala IDE% + 








14 _ Spark 源码 编译 与 调试 


1. 下 载 Spark 源 码 





首先 ， 访 问 Spark 官 网 http://spark.apache.org/， 如 图 1-18 所 示 。 


pa S clusier computing 


Download Libraries + Documentation ~ [3 Community + FAQ 


TM; ， Latest News 
Apache Spark™ is a fast and general engine for large-scale data i 


processing. Spark 1.2.1released (Feb 09, 2015) 


Spark Summit East agenda posted 
CFP open for West (Jan 21, 2075) 


Spark 1.2.0 released (Dec 19, 2014) 
peed 
un programs up to 100x faster than Hadoop 
apReduce in memory, or 10x faster on disk. 


Archive 


Download Spark 


Running time {s} 


Spark has an advanced DAG execution engine thal supports cyclic data flow 


ana in-memory computing 
ogistic regression in Hadoop and Spark Built-in Ubraries 





图 1-18 Spark È M 


Download Spark 按 钮 ， 在 下 一 个 页 面 找到 git 地 址 ， 如 图 1-19 所 示 。 





Development and Maintenance Branches 


If you are interested in working with the newest under-development code or contributing to Spark development, you can also check out 
the master branch from Git. 


# Master development branch 
git clone git: //qithub. com/apache/spark. git 


# 1.3 maintenance branch with stability fixes on top of spark 1.3.0 
git clone git: //github. com/apache/spark.git -b branch-1.3 





Once you've downloaded Spark, you can find instructions for installing and building it on the documentation page 





图 1-19 ”Spark 官方 gt 地 址 




















打开 Git Bash 工 具 ， 输 入 git clone git: //github.com/apache/spark.git 命 令 将 源码 下 载 到 本 地 ， 如 图 1-20 所 示 。 

















ALI-79252N /d/test 
$ git clone git: //qithub. fone eee git 


Toning into ‘spark’... 

remote: Counting objects: 230242, done. 

remote: Com ressing objects: LOO% (39/39), done. 

Receiving objects: o% (1073/230242) , 500.01 KiB | 75.00 KIB/S 


图 1-20 “下载 Spatk 源 码 











2. 构 建 Scala 应 




















使 用 cmd 命 令 行 进 到 Spark 根 目录 ， 执 行 sbt 命 令 。 会 下 载 和 解析 很 多 jar 包 ， 要 等 很 长 时 间 ， 笔 者 大 概 花 了 一 个 多 小 时 才 执行 完 。 














3. 使 用 sbt 生 成 Eclipse 工程 文件 























等 sbt 提 示 符 (>) 出 现 后 ， 输 入 Eclipse 命令 ， 开 始 生成 Eclipse 工程 文件 ， 也 需要 花费 很 长 时 间 ， 笔 者 本 地 大 致 伦 了 40 分 钟 。 完 成 时 的 状况 如 图 1-21 所 示 。 


C:\Windows\system32\cmd.exe - 


[varn] * commons-net:commons-net:1.4. 一 > 2.2 
[varn] Run ’evicted’ to see detailed eviction warnings 
[info] Successfully created Eclipse project files for projects): 
[info] spark-sql 

[info] spark-examples 

[info] spark-streaming 

[info] spark-streaming—kafka 

[info] spark-mllib 

[info] spark-catalyst 

[info] spark-graphx 

[info] spark-streaming—f lume-s ink 

[info] spark-assembly 

[info] spark-tools 

[info] spark-repl 

[info] spark-streaming-mqtt 

[info] spark-streaming-twitter 

[info] spark—-bagel 

[info] old-deps 

[info] spark-network—common 

[info] spark—hive 

[info] spark-streaming—f lume 

[info] spark-streaming-—zerong 

[info] spark-network—shuf f le 

[info] spark-core 

> 





图 1-21 sbt 编 译 过 程 





现在 我 们 查看 Spark 下 的 子 文件 夹 ， 发 现 其 中 都 生成 了 .project 和 .classpath 文 件 。 比 如 mllib 项 目下 就 生成 了 .project 和 .classpath 文 件 ， 如 图 1-22 所 示 。 





Str peck mib> | Remi 


— o | ë ë 


= 


[F classpath 


-proje 
| dependency-reduced-pom.xml 
|_| pom.xml 


图 1-22 sbt 生 成 的 项 目 文件 


4 编译 Spark 源 码 
由 于 Spark 使 用 Maven 作 为 项 目 管理 工具 ， 所 以 需要 将 Spark 项 目 作 为 Maven 项 目 导 入 Eclipse 中 ， 如 


单 击 Next 按 钮 进入 下 一 个 对 话 框 ， 如 图 1-24 所 示 。 








图 1-23 所 示 。 


修改 日 期 


2015/4/27 13:27 
2015/4/7 15:49 

2015/4/27 12:51 
2015/4/27 13:35 
2015/4/27 13:29 
2015/4/25 18:11 
2015/4/7 17:05 


PROJECT 文件 
XML 文件 
XML 文件 





Import Existing Maven Projects 


Select an import source: 


type filter text 


LI Check out Maven Projects from SCM 
wl, Existing Maven Projects 
a) Install or deploy an artifact to a Maven repository 
EI Materialize Maven Projects from SCM 

> E Plug-in Development 

b [> Remote Systems 

> B Run/Debug 

> E Tasks 

> E Team 

> E Web 

> (> Web services 

> E XML 





图 1-23 ”导入 Maven 项 目 


Ey Import Maven Projects 
Maven Projects 


Select Maven projects 


org.apache.sparkispark-parentil.2.3-SMAPSHOT:oom 
org.apache.s parks park-core 2.10:1.2.2-SNAPSAOTy ar 
org.apachesparkispark- bagel 2. 10:1.2.3-SNAPSHOTyar 
arg apeche sparkspark-oraphe 2101.2 3-SNAPSHOT ar J 
org.apache sparkrspark: mi lib_2.10:1.2.3-SNAPSHOTyar 
orgepachesparkicpark-tools 2 DkL2.3-SNAPSHOT jar TI | Besetect [ree 


org.apache.sparkrspark-network-common_2.1l (a 
etrest 
sork-shufle. 2,10:1.2, 一 


Org. apache.cparkispars-nety - 


Selact Tres | 


orga ache. sparks spark streaming 2.1 Lh. 3-SNAPSHE 
org.apache.cparkis park-catalyst_2.1001.2.3-S NWAPSHO 
org.apache,spark:spark-sql_2.10:1.2.3-SNAPSHOTyar 
| org. apache.sperktspark-hive2.1001.2.3-SNADSHE tok 


iti a a ee I 


|F| Add projects) to working set 


spark 


P Advanced 





图 1-24 ”选择 Maven 项 目 





全 选 所 有 项 目 ， 单 击 Finish 按 钮 ， 这 样 就 完成 了 导入 ， 如 图 1-25 所 示 。 














Package Explorer £3 | =| T, | sa neo j 





ic javai-tects 2.10 [spark branch-i.2] a 
‘oq spark-assembly 2.10 [spark branch-1.2] 


bea spark-bagel 2.10 [spark branch-1.2] | 
ber spark-catalyst_2.10 [spark branch-L.2] 
出 二 与 


ee spark-core_?.10 [spark branch-1.2] 


a ee ee ee. ee ee ee ee eee ee ee eee 
lus E I 3. 2. rF i i I q “4 


D [hig SParK-examples_4.LU [Spark prancn-Lw] 

b 是 号 spark-ganglia-lgpl 2.10 [spark branch-1.2) 

p bem spark-graphx 2.10 [spark branch-1.2] 

b Bg spark-hwe_2.10 [spark branch-1.2] 

[D ber spark-hive-thriftserver_2.10 [spark branch-L.: 
Ñ ia spark-milib 2.10 [spark branch-1.2] 

> fe spark-network-common_2.10 [spark branch- 
b $g spark-network-shuffle_2.10 [spark branch-1.2 
b fee spark-network-yarn_2.10 [spark branch-1.2] 
b Soy = spark-parent [spark branch-1.21 ] 
> fee spark-repl 2.10 [spark branch-1.2] 

b sea spark-sql_2.10 [spark branch-1.2] 

p Eg = spark-streaming 210 [spark branch-1.2] 

b say spark-strearming-flume 2.10 [spark branch-1 


H“ 


D EF 
b Beg spark-streaming-kafka 2.10 [spark branch-1.2] 


spark-streaming-flume-sink_2.10 [spark brar 





p bea spark-streaming-kinesis-asl_ 2.10 [spark bran 
b say spark-streaming-matt_?.10 [spark branch-1.2 
t pgg spark-streaming-twitter_2.10 [spark branch-1 
b fey spark-streaming-zeromag_2.10 [spark branch 
Ü EU spark-tools 2.10 [spark branch-1.2] 

Ë bey spark-yarn_2.10 [spark branch-L.2] 

> $g spark-yarn-alpha 2.10 [spark branch-1.2] 

b fee varn-narent 2.10 [snark branch-171 

a TT se I 








1-25 导入 完成 的 项 目 








导入 完成 后 ， 需 要 设置 每 个 子 项 目的 build path。 右 击 每 个 项 目 ， 选 择 “Build Path” > “Configure Build Path...” , 4J#Java Build Path 界 面 ， 如 图 1-26 所 示 。 
Properties for spark-mllib_2.1( 
e filter text Java Build Path 


b Resource - - : 
Builders [中 Source & Projects BA Libraries “<> Order and Export 


Git JARs and dass folders on the build path: 
Java Build Path 
Java Code Style 

; Java Compiler 

， Java Editor 
Javadoc Location 














ie activation-1.1jar - D:\git\spark\lib_managed 4 
b actvemq-core-5.7.0jar - DAgit\spark\lib_ma_! 
oe akka-actor_2,.10-2,3.4-sparkjar - DAgit\spar 
a akka-remote_2.10-2.3.4-sparkjar - D:\git\sp 
¢ akka-slf4j 2.10-2.3.4-sparkjar - D:\qit\spark’ 
» Maven > akka-testkit_2.10-2.3.4-sparkjar - D:\git\spa Add Library... | 
Play2 ) akka-zeromq_2.10-2.3.4-sparkjar - Di\git\se | L. ' 
Project Facets ss Folder... 


Add JARs.. 


Add External JARs... 


Add Variable... 





at algebird-core_?.10-0.8.1 jar - D:git\spark\lib_managed\jars 
Project References ant-1.9.1,jar - D:\git\spark\ib_managed\jars 
ant-launcher-1.9.1. jar - D:\git\spark\ib_manz 
anur-2.7.7jar - DAgit\spark\lib_managed\jar 
antr-3.2,jar - D:\git\spark\lib_managed\jars 


Run/Debug Settings 
Scala Compiler 

Scala Formatter 

Scala Organize Imports 
Task Repository 


a antr-runtime-3.4.jar - D:\git\sperk\lib_manac 
品 aopalliance-l.0jar - D:\git\spark\lib_manage 


Add External Class Folde 





Edit... 





Remove 








Task Tags oe arpack_combined_all-0.1-jevadoc,jar - DAgit Migrate JAR File... 


> Validation arpack_combined_all-0.Ljar - DAgit\spark\lil ~ 
WikiText | Egg 和 gp 














图 1-26 Java 编 译 目录 
单 击 Add External JARs 按 钮 ， 将 Spark 项 目下 的 lib_managed 文 件 夹 的 子 文件 夹 bundles 和 jars 内 的 jar 包 添加 进来 。 
Ora 


lib_managed/jars X4 & FA ARS 444M spark #4 é, redo: spatk-catalyst_2.10-1.3.2-SNAPSHOT.jar。 这 些 jar 包 有 可 能 与 你 下 载 的 Spatk 源 码 的 版 本 不 一 致 ， 导 致 你 在 调试 源码 时 ， 发 生 jar 包 冲突 。 所 以 请 将 它 
们 排除 出 去 。 





Eclipse 在 对 项 目 编译 时 ， 笔 者 本 地 出 现 了 很 多 错误 ， 有 关 这 些 错 误 的 解决 建议 参见 附录 H。 所 有 错误 解决 后 运行 mvn clean install， 如 图 1-27 所 示 。 
5. 调 试 Spark 源 码 


以 Spark 源 码 自 带 的 JavaWordCount 为 例 ， 介 绍 如 何 调试 Spark 源 码 。 右 击 JavaWord-Countjava， 选 择 “Debug As” > "Java Application” 即 可 。 如 果 想 修改 配置 参数 ， 右 击 
JavaWordCountjava,， 选 择 “Debug As” 一 “Debug Configurations...” ， 从 打开 的 对 话 框 中 选择 JavaWordCount， 在 右 侧 标签 可 以 修改 java 执行 参数 、JRE、classpath、 环 境 变量 等 配置 ， 如 图 1-28 
所 示 。 





读者 也 可 以 在 Spark 源 码 中 设置 断 点 ， 进 行 跟踪 调试 。 





月 9 日 上午 83802) 


ied sheen 








Project 
Project 
Project 
Project 
Project 
Project 
Project 
Project 
Project 
Project 
Project 
Project 
Project 
Project 
Project 
Project 
Project 
Project 
Project 
Project 
Project 


SUCCESS 
SUCCESS 
SUCCESS 
SUCCESS 
SUCCESS 
SUCCESS 
SUCCESS 
SUCCESS 
SUCCESS 
SUCCESS 
SUCCESS 
SUCCESS 
SUCCESS 
SUCCESS 
SUCCESS 
SUCCESS 
SUCCESS 
SUCCESS 
SUCCESS 
SUCCESS 
SUCCESS 


Networking 
Shuffle Streaming Service 


Streaming 
Catalyst 
SQL 

ML Library 


Assembly 

External Twitter 
External Flume Sink 
External Flume 
External MQTT 
External ZerolMQ 
External Katka 
Examples 


time: 01:43 h 


Finished at: 
Final Memory: 


2015-04-09T10:21:17+08:00 


69M/503M 


[ 7.838 s] 
[ 17.119 s] 
[ 11.722 s] 
[83:57 min] 
[ 21.502 s] 
E 57.174 sj 
(61:25 min] 
[83:09 min] 
[85:29 min] 
[05:06 min] 
[ 36.939 s] 
[16:25 min] 
[83:05 min] 
[84:21 min] 
[@1:38 min] 
[62:59 min] 
[ 32.482 s] 
[87:28 min] 
[81:28 min] 
[82:30 min] 
[41:02 min] 





图 1-27 编译 成 功 








Create, manage, and run configurations 


Debug a Java application 


Sexl|aw- 
|type filter text 


Generic Server(Extern 

A HTTP Preview 

A J2EE Proview 

局 | Java Applet 

a Java Application 

E JavaCustomReceiv 
加 JavaSparkSQL 
[T JavaWordCount| 
m Test 


15) ag 


Name: JavaWordCount 





A 


Environment variables to set: 


Variable 
@ SPARK_HOME 


Value 


D:git\spark 


- 
La 





图 1-28 ”源码 调试 


|| [四 Main m= Arguments (= JRE (% Classpath [Ey Source (5 Environment 


Remove 








本 章 通 过 引导 大 家 在 Linux 操 作 系统 下 搭建 基本 的 执行 环境 ， 并 且 介 绍 spark-shell 等 脚本 的 执行 ， 来 帮助 读者 由 浅 入 深 地 进行 Spark 源 码 的 学 习 。 由 于 目前 多 数 开 发 工作 都 在 Windows 系 统 下 进行 ， 并 
且 Eclipse 有 最 广大 的 用 户 群 ， 即 便 是 一 些 开 始 使 用 Intell 的 用 户 对 Eclipse 也 不 陌生 ， 所 以 在 Windows 环 境 下 搭建 源码 阅读 环境 时 ， 选 择 这 些 最 常用 的 工具 ， 能 降低 读者 的 学 习 门槛， 并 且 蔡 大 家 节省 时 
间 。 


第 2 章 ”Spark 设计 理念 与 基本 架构 


若 夫 乘 天 地 之 正 ， 而 御 六 气 之 辩 ， 以 游 无 穷 者 ， 彼 且 恶 乎 待 哉 ? 
一 一 《庄子 * tea 
本 章 导读 


上 一 章 ， 介 绍 了 Spatk 环 境 的 搭建 ， 为 方便 读者 学 习 Spak 做 好 准备 。 本 章 首先 从 Spatk 产 生 的 背景 开始 ， 介 绍 Spatk 的 主要 特点 、 基 本 概念 、 版 本 变迁 。 然 后 简要 说 明 Spatk 的 主要 模块 和 编程 模型 。 最 后 从 
Spa 引 k 的 设计 理念 和 基本 架构 入 手 ， 使 读者 能 够 对 Spatk 有 宏观 的 认识 ， 为 之 后 的 内 容 做 一 些 准 备 工 作 。 


Spatk 是 一 个 通用 的 并 行 计算 框架 ， 由 加 州 伯克利 大 学 (UCBerkeley) 的 AMP 实 验 室 开发 于 2009 年 ， 并 于 2010 年 开源 ，2013 年 成 长 为 Apache 旗 下 大 数据 领域 最 活跃 的 开源 项 目 之 一 。Spatk 也 是 基于 map 
teduce 算 法 模式 实现 的 分 布 式 计算 框架 ， 拥 有 Hadoop MapReduce 所 具有 的 优点 ， 并 且 解 决 了 Hadoop MapReduce 中 的 诸多 缺陷 。 


2.1 初 识 spark 


2.1.1 Hadoop MRv1 的 局 限 























Hadoop1.0 版 本 采用 的 是 MRv1 版 本 的 MapReduce 编 程 模型 。MRv1 版 本 的 实现 都 封装 在 org.apache.hadoop.mapred 包 中 ，MRv1 的 Map 和 Reduce 是 通过 接口 实现 的 。MRv1 包 括 三 个 部 分 : 











+ 运行 时 环境 (JobTracker 和 TaskTracker) ; 
:编程 模型 (MapReduce) ; 
+ 数据 处 理 引 擎 《Map 任务 和 Reduce 任 务 ) o 
MRv1 存 在 以 下 不 足 : 
* 可 扩展 性 差 : 在 运行 时 ，JobTracker 有 既 负 责 资源 管理 又 负责 任务 调度 ， 当 集群 系 忙 时 ，JobTracker 很 容易 成 为 瓶颈 ， 最 终 导致 它 的 可 扩展 性 问题 。 
: 可 用 性 差 : 采用 了 单 节点 的 Master， 没 有 备用 Mastet 及 选举 操作 ， 这 导致 一 旦 Master 出 现 故障 ， 整 个 集群 将 不 可 用 。 


资源 利用 率 低 : TaskTracker 使 用 slot 等 量 划 分 本 节点 上 的 资源 量 。slot 代 表 计 算 资 源 (CPU、 内 存 等 ) 。 一 个 Task 获 取 到 一 个 slot 后 才 有 机 会 运行 ，Hadoop 调 度 器 负责 将 各 个 TaskTracker 上 的 空闲 slot 分 配 
给 Task 使 用 。 一 些 Task 并 不 能 充分 利用 slot， 而 其 他 Task 也 无 法 使 用 这 些 空闲 的 资源 。slot 分 为 Map slot 和 Reduce slot 两 种 ， 分 别 供 MapTask 和 Reduce Task 使 用 。 有 时 会 因为 作业 刚刚 启动 等 原因 导致 MapTask 很 
多 ， 而 Reduce Task 任 务 还 没有 调度 的 情况 ， 这 时 Reduce slot 也 会 被 闲置 。 


- 不 能 支持 多 种 MapReduce 框 架 : 无 法 通过 可 插 拔 方式 将 自身 的 MapReduce 框 架 替 换 为 其 他 实现 ， 如 Spatk、Storm 等 。 


MRv1 的 示意 如 图 2-1 所 示 。 
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图 2-1 MRv1 示 意图 上 


























Apache 为 了 解决 以 上 问题 ， 对 Hadoop 进 行 升级 改造 ，MRv2 最 终 诞生 了 。MRv2 重 用 了 MRv1 中 的 编程 模型 和 数据 处 理 引 擎 ， 但 是 运行 时 环境 被 重 构 了 。JobTracker 被 拆 分 成 了 通用 的 资源 调度 平台 
(ResourceManager, RM) 和 负责 各 个 计算 框架 的 任务 调度 模型 (ApplicationMaster，AM) 。MRv2 中 MapReduce 的 核心 不 再 是 MapReduce 框 架 ， 而 是 YARN。 在 以 YARN 为 核心 的 MRv2 
中 ，MapReduce 框 架 是 可 插 拔 的 ， 完 全 可 以 替换 为 其 他 MapReduce 实 现 ， 比 如 Spark、Storm 等 。MRv2 的 示意 如 图 2-2 所 示 。 
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Hadoop MRv2 虽 然 解决 了 MRv1 中 的 一 些 问题 ， 但 是 由 于 对 HDFS 的 频繁 操作 (包括 计算 结果 持久 化 、 数 据 备份 及 shuffle 等 ) 导致 磁盘 I/O 成 为 系统 性 能 的 瓶颈 ， 因 此 只 适用 于 离线 数据 处 理 ， 而 不 能 
提供 实时 数据 处 理 能 力 。 























2.1.2 Spark 使 用 场景 






























































Hadoop 常 用 于 解决 高 吞吐 、 批 量 处 理 的 业务 场景 ， 例 如 离线 计算 结果 用 于 浏览 量 统计 。 如 果 需 要 实时 查看 浏览 量 统计 信息 ，Hadoop 显 然 不 符合 这 样 的 要 求 。Spark 通 过 内 存 计算 能 力 极 大 地 提高 了 大 
数据 处 理 速 度 ， 满 足 了 以 上 场景 的 需要 。 此 外 ，Spark 还 支持 SQL 查询 、 流 式 计算 、 图 计算 、 机 器 学 习 等 。 通 过 对 Java、Python、Scala、R 等 语言 的 支持 ， 极 大 地 方便 了 用 户 的 使 用 。 



































2.1.3 ”Spark 的 特点 


Spark 看 到 MRv1 的 问题 ， 对 MapReduce 做 了 大 量 优化 ， 总 结 如 下 : 


“ 快速 处 理 能 力 。 随 着 实时 大 数据 应 用 越 来 越 多 ，Hadoop 作 为 离线 的 高 吞吐 、 低 响应 框架 已 不 能 满足 这 类 需求 。Hadoop MapReduce 的 Job 将 中 间 输 出 和 结果 存储 在 HDFS 中 ， 读 写 HDFS 造 成 磁盘 I/ 〇 成 为 
瓶颈 。Spark 允 许 将 中 间 输 出 和 结果 存储 在 内 存 中 ， 避 免 了 大 量 的 磁盘 LI/O。 同 时 Spa 中 自 身 的 DAG 执 行 引擎 也 支持 数据 在 内 存 中 的 计算 。Spark 官 网 声称 性 能 比 Hadoop 快 100 倍 ， 如 图 2-3 所 示 。 即 便 是 内 存 不 
足 ， 需 要 磁盘 [/ 〇 ， 其 速度 也 是 Hadoop 的 10 倍 以 上 。 


“ 易于 使 用 。Spatk 现 在 支持 Java、Scala、Python 和 R 等 语言 编写 应 用 程序 ， 大 大 降低 了 使 用 者 的 门槛 。 自 带 了 80 多 个 高 等 级 操作 符 ， 允 许 在 Scala、Python、R 的 shell 中 进行 交互 式 查询 。 


“ 支持 查询 。Spatk 支 持 SQL 及 Hive SQL 对 数据 查询 。 


- 支持 流 式 计算 。 与 MapReduce 只 能 处 理 离线 数据 相 比 ，Spatk 还 支持 实时 的 流 计算 。Spark 依 赖 Spatk Streaming 对 数据 进行 实时 的 处 理 ， 其 流 式 处 理 能 力 还 要 强 于 Storm。 





“ 可 用 性 高 。Spatk 自 身 实现 了 Standalone 部 署 模式 ， 此 模式 下 的 Master 可 以 有 多 个 ， 解 决 了 单 点 故障 问题 。 此 模式 完全 可 以 使 用 其 他 集群 管理 器 替换 ， 比 如 YARN、Mesos、EC2 等 。 


+ 丰富 的 数据 源 支 持 。Spatk 除 了 可 以 访问 操作 系统 自身 的 文件 系统 和 HDFS， 还 可 以 访问 Cassandra、HBase、Hive、Tachyon 以 及 任何 Hadoop 的 数据 源 。 这 极 大 地 方便 了 已 经 使 用 HDFS、Hbase 的 用 户 顺利 
迁移 到 Spatk。 


E Hadoop 
Spark 
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[1] 图 2-1 和 图 2-2 都 来 源 自 http://blogchinaunix.net/uid-28311809-ud-4383551.html。 














2.2 ”Spark 基 础 知识 


1. 版 本 变迁 

经 过 4 年 多 的 发 展 ，Spark 目 前 的 版 本 是 1.4.1。 我 们 简单 看 看 它 的 版 本 发 展 过 程 。 

1) Spark 诞 生 于 UCBerkeley 的 AMP 实 验 室 (2009) 。 

2) Spark 正 式 对 外 开源 (2010 年 ) 。 

3) Spark 0.6.0 版 本 发 布 (2012-10-15) ， 进 行 了 大 范围 的 性 能 改进 ， 增 加 了 一 些 新 特性 ， 并 对 Standalone 部 署 模式 进行 了 简化 。 
4) Spark 0.6.2 版 本 发 布 (2013-02-07) ， 解 决 了 一 些 bug， 并 增强 了 系统 的 可 用 性 。 


5) Spark 0.7.0 版 本 发 布 (2013-02-27) ， 增 加 了 更 多 关键 特性 ， 例 如 ，Python API, Spark Streaming 的 alpha 版 本 等 。 





6) Spark 0.7.2 版 本 发 布 (2013-06-02) ， 性 能 改进 并 解决 了 一 些 bug， 新 增 API 使 用 的 例子 。 
7) Spark 接 受 进入 Apache 孵 化 器 (2013-06-21) 。 


8) Spark 0.7.3 版 本 发 布 (2013-07-16) ， 解 决 一 些 bug， 更 新 Spark Streaming APIS, 





9) Spark 0.8.0 版 本 发 布 (2013-09-25) ， 一 些 新 功能 及 可 用 性 改进 。 

10) Spark 0.8.1 版 本 发 布 (2013-12-19) ， 支 持 Scala 2.9、YARN 2.2、Standalone 部 署 模式 下 调度 的 高 可 用 性 、shuffle 的 优化 等 。 

11) Spark 0.9.0 版 本 发 布 (2014-02-02) ， 增 加 了 GraphX， 机 器 学 习 新 特性 ， 流 式 计 算 新 特性 ， 核 心 引擎 优化 (外 部 聚合 、 加 强 对 YARN 的 支持 ) 等 。 

12) Spark 0.9.1 版 本 发 布 (2014-04-09) ， 增 强 使 用 YARN 的 稳定 性 ， 改 进 Scala 和 Python API 的 奇偶 性 。 

13) Spark 1.0.0 版 本 发 布 (2014-05-30) , Spark SQL、MLlib、GraphX 和 Spark Streaming 都 增加 了 新 特性 并 进行 了 优化 。Spark 核 心 引擎 还 增加 了 对 安全 YARN 集 群 的 支持 。 
14) Spark 1.0.1 版 本 发 布 (2014-07-11) ， 增 加 了 spark SQL 的 新 特性 和 对 JSON 数 据 的 支持 等 。 

15) Spark 1.0.2 版 本 发 布 (2014-08-05) ，Spark 核 心 API 及 Streaming、Python、MLlib 的 bug 修 复 。 

16) Spark 1.1.0 版 本 发 布 (2014-09-11) 。 

17) Spark 1.1.1 版 本 发 布 (2014-11-26) ，Spark 核 心 API 及 Streaming、Python、SQL、GraphX 和 MLIib 的 bug 修 复 。 

18) Spark 1.2.0 版 本 发 布 (2014-12-18) 。 


19) Spark 1.2.1 版 本 发 布 (2015-02-09) ，Spark 核 心 API 及 Streaming、Python、SQL、GraphX 和 MLIib 的 bug 修 复 。 





20) Spark 1.3.0 版 本 发 布 (2015-03-13) 。 


21) Spark 1.4.0 版 本 发 布 (2015-06-11) 。 


22) Spark 1.4.1 版 本 发 布 (2015-07-15) , DataFrame API 及 Streaming、Python、SQL 和 MLlib 的 bug 修 复 。 


2. 基 本 概念 


要 想 对 Spark 有 整体 性 的 了 解 ， 推 荐 读者 阅读 Matei Zaharia 的 Spark 论 文 。 此 处 笔者 先 介绍 Spark 中 的 一 些 概念 : 


- RDD (resillient distributed dataset) : 弹性 分 布 式 数据 集 。 


- Task: 具体 执行 任务 。Task 分 为 ShuffleMapTask 和 ResultTask 两 种 。ShuffleMapTask 和 ResultTask 分 别 类 似 于 Hadoopb 中 的 Map 和 Reduce。 


Job: 用户 提交 的 作业 。 一 个 Job 可 能 由 一 到 多 个 Task 组 成 。 


+ Stage: Job 分 成 的 阶段 。 一 个 Job 可 能 被 划分 为 一 到 多 个 Stage。 


“ Partition: 数据 分 区 。 


即 一 个 RDD 的 数据 可 以 划分 为 多 少 个 分 区 。 


- NarrowDependency: 窜 依 赖 ， 即 子 RDD 依 赖 于 父 RDD 中 固定 的 Partition。Narrow-Dependency 分 为 OneToOneDependency 和 RangeDependency 两 种 。 


+ ShuffleDependency: shuffle 依 赖 ， 也 称 为 宽 依赖 ， 即 子 RDD 对 父 RDD 中 的 所 有 Partition 都 有 依赖 。 


- DAG (directed acycle graph) : 有 向 无 环 图 。 用 于 反映 各 RDD 之 间 的 依赖 关系 。 


3.Scala 与 Java 的 比较 





Spark 为 什么 要 选择 Java 作 为 开发 语言 ”笔者 不 得 而 知 。 如 果 能 对 二 者 进行 比较 ， 也 许 能 看 出 一 些 端倪 。 表 2-1 列 出 了 scala 与 Java 的 比较 。 


比 项 项 


表 2-1 Scala 与 Java 的 比较 


Scala Java 





语言 类 型 
简洁 性 


类 型 推断 


学 习 成 本 
语言 特性 


面向 函数 为 主 ， 兼 有 面向 对 象 面向 对 象 (Javag 也 增加 了 lambda 函数 编程 ) 


非常 简洁 





不 简洁 


丰富 的 类 型 推 朵 ， 例 如 深度 和 链 式 的 类 型 推 新 、| 少量 的 类 型 推断 
duck type、 隐 式 类 型 转换 等 ， 但 也 因此 增加 了 编译 


时 长 


方法 签名 
较 高 





A, 丰富 的 语法 糖 导致 的 各 种 奇幻 用 法 ， 例 如 | 好 


非常 丰富 的 语法 糖 和 更 现代 的 语言 特性 ， 例 如 | 丰富 
option、 模 式 匹 配 、 使 用 空格 的 方法 调用 








使 用 Actor 的 消息 模 


通过 以 上 比较 似乎 仍然 无 法 判断 Spark 选 择 Java 作 为 开发 语言 的 原 


2.3 Spark 基本 设计 思想 


2.3.1 _ Spark 模块 设计 


整个 Spark 主 要 由 以 下 模块 组 成 : 


型 使 用 阻塞 、 锁 、 阻 塞 队列 等 








因 。 由 于 函数 式 编 程 更 接近 计算 机 思维 ， 因 此 便于 通过 算法 从 大 数据 中 建 模 ， 这 应 该 更 符合 Spark 作 为 大 数据 框架 的 理念 吧 ! 








“ Spark Core: Spark 的 核心 功能 实现 ， 包 括 : SpatkContext 的 初始 化 (Driver Application 通 过 SparkContext 提 交 ) 、 部 署 模式 、 存 储 体系 、 任 务 提交 与 执行 、 计 算 引 擎 等 。 


“ Spark SQL: 提供 SQL 处 理 能 力 ， 便 于 熟悉 关系 型 数据 库 操 作 的 工程 师 进 行 交互 查询 。 此 外 ， 还 为 熟悉 Hadoop 的 用 户 提供 Hive SQL 处 理 能 力 。 


“ Spark Streaming: 提供 流 式 计算 处 理 能 力 ， 目 前 支持 Kafka、Flume、Twitter、MQTT、ZeroMQ、Kinesis 和 简单 的 TCP 套 接 字 等 数据 源 。 此 外 ， 还 提供 窗口 操作 。 














.GraphX: 提供 图 计算 处 理 能 力 ， 支 持 分 布 式 ，Pregel 提 供 的 API 可 以 解决 图 计算 中 的 常见 问题 。 


+ MUib: 提供 机 器 学 习 相 关 的 统计 、 分 类 、 回 归 等 领域 的 多 种 算法 实现 。 其 一 致 的 API 接 口 大 大 降低 了 用 户 的 学 习 成 本 。 





Spark SQL, Spark Streaming、GraphX、MLlib 的 能 力 都 是 建立 在 核心 引擎 之 上 ， 如 图 2-4 所 示 。 





图 2-4 Spatk 各 模块 依赖 关系 


1.Spark 核 心 功能 


Spark Core 提 供 Spark 最 基础 与 最 核心 的 功能 ， 主 要 包括 以 下 功能 。 








+ SparkContext: 通常 而 言 ，Driver Application 的 执行 与 输出 都 是 通过 SpatkContext 来 完成 的 ， 在 正式 提交 Application 之 前 ， 首 先 需要 初始 化 SpatkContext。SpatkContext 隐 藏 了 网 络 通信 、 分 布 式 部 署 、 消 息 
通信 、 存 储 能 力 、 计 算 能 力 、 缓 存 、 测 量 系统 、 文 件 服务 、Web 服 务 等 内 容 ， 应 用 程序 开发 者 只 需要 使 用 SpatkContext 提 供 的 API 完 成 功能 开发 。SparkContext 内 置 的 DAGScheduler 负 责 创建 Job， 将 DAG 中 的 
RDD 划 分 到 不 同 的 Stage， 提 交 Stage 等 功能 。 内 置 的 TaskScheduler 负 责 资源 的 申请 、 任 务 的 提交 及 请 求 集群 对 任务 的 调度 等 工作 。 


. 存储 体系 : Spark 优 先 考虑 使 用 各 节点 的 内 存 作为 存储 ， 当 内 存 不 足 时 才 会 考虑 使 用 磁盘 ， 这 极 大 地 减少 了 磁盘 I/O， 提 升 了 任务 执行 的 效率 ， 使 得 Spark 适 用 于 实时 计算 、 流 式 计算 等 场景 。 此 
外 ，Spatk 还 提供 了 以 内 存 为 中 心 的 高 容错 的 分 布 式 文件 系统 Tachyon 供 用 户 进行 选择 。Tachyon 能 够 为 Spark 提 供 可 靠 的 内 存 级 的 文件 共享 服务 。 


- 计算 引擎 : 计算 引擎 由 SpatkContext 中 的 DAGScheduler、RDD 以 及 具体 节点 上 的 Executor 负 责 执行 的 Map 和 Reduce 任 务 组 成 。DAGScheduler 和 RDD 虽 然 位 于 SparkContext 内 部 ， 但 是 在 任务 正式 提交 与 执 
行 之 前 会 将 Job 中 的 RDD 组 织 成 有 向 无 关 图 (简称 DAG) ， 并 对 Stage 进 行 划分 ， 决 定 了 任务 执行 阶段 任务 的 数量 、 选 代 计 算 、shufhe 等 过 程 。 


“ 部 署 模式 : 由 于 单 节点 不 足以 提供 足够 的 存储 及 计算 能 力 ， 所 以 作为 大 数据 处 理 的 Spak 在 SpatkContext 的 TaskScheduler 组 件 中 提供 了 对 Standalone 部 署 模式 的 实现 和 Yarn、Mesos 等 分 布 式 资源 管理 系统 
的 支持 。 通 过 使 用 Standalone、Yarn、Mesos 等 部 署 模式 为 Task 分 配 计算 资源 ， 提 高 任务 的 并 发 执行 效率 。 除 了 可 用 于 实际 生产 环境 的 Standalone、Yarn、Mesos 等 部 署 模式 外 ，Spark 还 提供 了 Local 模 式 和 local- 
cluster 模 式 便于 开发 和 调试 。 


2.Spark 扩 展 功能 
为 了 扩大 应 用 范围 ，Spark 陆 续 增加 了 一 些 扩展 功能 ， 主 要 包括 : 


“ Spark SQL: SQL 具有 普及 率 高 、 学 习 成 本 低 等 特点 ， 为 了 扩大 Spatk 的 应 用 面 ， 增 加 了 对 SQL 及 Hive 的 支持 。Spark SQL 的 过 程 可 以 总 结 为 : 首先 使 用 SQL 语句 解析 器 (SqlParser) 将 SQL 转换 为 语法 树 
(Tree) ， 并 且 使 用 规则 执行 器 (RuleExecutor) 将 一 系列 规则 (Rule) 应 用 到 语法 树 ， 最 终生 成 物理 执行 计划 并 执行 。 其 中 ， 规 则 执行 器 包括 语法 分 析 器 (Analyzer) 和 优化 器 (Optimizer) 。Hive 的 执行 过 
程 与 SQL 类 似 。 


: Spark Streaming: Spark Streaming 与 Apache Storm 类 似 ， 也 用 于 流 式 计算 。Spatk Streaming 支 持 Kafka、Flume、Twitter、MQTT、ZeroMQ、Kinesis 和 简单 的 TCP 套 接 字 等 多 种 数据 输入 源 。 输 入 流 接收 器 
(Receiver) 负责 接 入 数据 ， 是 接 入 数据 流 的 接口 规范 。Dstream 是 Spark Streaming 中 所 有 数据 流 的 抽象 ，Dstream 可 以 被 组 织 为 DStream Graph。Dstream 本 质 上 由 一 系列 连续 的 RDD 组 成 。 


+ GraphX: Spark 提 供 的 分 布 式 图 计算 框架 。GraphX 主 要 遵循 整体 同步 并 行 (bulk synchronous parallell, BSP) 计算 模式 下 的 Pregel 模 型 实现 。GraphX 提 供 了 对 图 的 抽象 Graph，Graph 由 顶点 (Vertex) 、 边 
(Edge) 及 继承 了 Edge 的 EdgeTtiplet( 添 加 了 srcAttr 和 dstAttr 用 来 保存 源 顶 点 和 目的 顶点 的 属性 ) 三 种 结构 组 成 。GraphX 目 前 已 经 封装 了 最 短路 径 、 网 页 排名 、 连 接 组 件 、 三 角 关 系统 计 等 算法 的 实现 ， 用 户 
可 以 选择 使 用 。 


+ MLlib: Spark 提 供 的 机 器 学 习 框 架 。 机 器 学 习 是 一 门 涉及 概率 论 、 统 计 学 、 通 近 论 、 凸 分 析 、 算 法 复杂 度 理论 等 多 领域 的 交叉 学 科 。MLlib 目 前 已 经 提供 了 基础 统计 、 分 类 、 回 归 、 决 策 树 、 随 机 森 
林 、 朴 素 贝 叶 斯 、 保 序 回归 、 协 同 过 滤 、 聂 类 、 维 数 缩减 、 特 征 提取 与 转型 、 频 繁 模式 挖 据 、 预 言 模型 标记 语言 、 管 道 等 多 种 数理 统计 、 概 率 论 、 数 据 挖 据 方面 的 数学 算法 。 


2.3.2 Spark 模型 设计 


1.Spark 编 程 模型 








Spark 应 用 程序 从 编写 到 提交 、 执 行 、 输 出 的 整个 过 程 如 图 2-5 所 示 ， 图 中 描述 的 步骤 如 下 。 


1) 用 户 使 用 SparkContext 提 供 的 API (常用 的 有 textFile、sequenceFile、runJob、stop 等 ) 编写 Driver application 程 序 。 此 外 SQLContext、HiveContext 及 StreamingContext 对 Spark-Context 
进行 封装 ， 并 提供 了 SQL、Hive 及 流 式 计算 相关 的 APl。 


2) 使 用 SparkContext 提 交 的 用 户 应 用 程序 ， 首 先 会 使 用 BlockManager 和 Broadcast-Manager 将 任务 的 Hadoop 配 置 进行 广播 。 然 后 由 DAGScheduler 将 任务 转换 为 RDD 并 组 织 成 DAG，DAG 还 将 被 
划分 为 不 同 的 Stage。 最 后 由 TaskScheduler 借 助 ActorSystem 将 任务 提交 给 集群 管理 器 (Cluster Manager) 。 


3) 集群 管理 器 (Cluster Manager) 给 任务 分 配 资源 ， 即 将 具体 任务 分 配 到 Worker 上 ，Worker 创 建 Executor 来 处 理 任务 的 运行 。Standalone、YARN、Mesos、EC2 等 都 可 以 作为 Spark 的 集群 管理 
器 。 


2.RDD 计 算 模型 
RDD 可 以 看 做 是 对 各 种 数据 计算 模型 的 统一 抽象 ，Spark 的 计算 过 程 主要 是 RDD 的 迭代 计算 过 程 ， 如 图 2-6 所 示 。RDD 的 迭代 计算 过 程 非常 类 似 于 管道 。 分 区 数量 取决 于 partition 数 量 的 设 定 ， 每 个 分 
区 的 数据 只 会 在 一 个 Task 中 计算 。 所 有 分 区 可 以 在 多 个 机 器 节点 的 Executor 上 并 行 执行 。 
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图 2-5 ”代码 执行 过 程 














图 2-6 RDD 计 算 模型 
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从 集群 部 署 的 角度 来 看 ，Spark 集 群 由 以 下 部 分 组 成 : 

“ Cluster Manager: Spatk 的 集群 管理 器 ， 主 要 负责 资源 的 分 配 与 管理 。 集 群 管理 器 分 配 的 资源 属于 一 级 分 配 ， 它 将 各 个 Worker 上 的 内 存 、CPU 等 资源 分 配给 应 用 程序 ， 但 是 并 不 负责 对 Executor 的 资源 分 
配 。 目 前 ，Standalone、YARN、Mesos、EC2 等 都 可 以 作为 Spatk 的 集群 管理 器 。 

- Worker: Spatk 的 工作 节点 。 对 Spatrk 应 用 程序 来 说 ， 由 集群 管理 器 分 配 得 到 资源 的 Worketr 节 点 主要 负责 以 下 工作 : 创建 Executor， 将 资源 和 任务 进一步 分 配给 Executor， 同 步 资源 信息 给 Cluster 
Manager。 

` Executor: 执行 计算 任务 的 一 线 进程 。 主 要 负责 任务 的 执行 以 及 与 Worker、Driver App 的 信息 同步 。 


` Driver App: 客户 端 驱 动 程序 ， 也 可 以 理解 为 客户 端 应 用 程序 ， 用 于 将 任务 程序 转换 为 RDD 和 DAG， 并 与 Cluster Managet 进 行 通信 上 与 调度 。 





这 些 组 成 部 分 之 间 的 整体 关系 如 图 2-7 所 示 。 
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每 项 技术 的 诞生 都 会 由 某 种 社会 需求 所 驱动 ，Spark 正 是 在 实时 计算 的 大 量 需求 下 诞生 的 。Spark 借 助 其 优秀 的 处 理 能 力 、 可 用 性 高 、 丰 富 的 数据 源 支持 等 特点 ， 在 当前 大 数据 领域 变 得 火热 ， 参 与 的 开 
发 者 也 越 来 越 多 。Spark 经 过 几 年 的 迁 代 发 展 ， 如 今 已 经 提供 了 丰富 的 功能 。 笔 者 相信 ，Spark 在 未 来 必 将 产生 更 耀眼 的 火花 。 
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第 3 章 SparkContext 的 初始 化 


wE, -£=, AEE, 247%. 
一 一 《道德 经 》 
本 章 导读 


SpatkContext 的 初始 化 是 Driver 应 用 程序 提交 执行 的 前 提 ， 本 章 内 容 以 local 模 式 为 主 ， 并 按照 代码 执行 顺序 讲解 ， 这 将 有 助 于 首次 接触 Spark 的 读者 理解 源码 。 读 者 朋友 如 果 能 边 跟踪 代码 ， 边 学 习 本 章 内 
， 也 许 是 快速 理解 SpatkContext 初 始 化 过 程 的 便捷 途径 。 已 经 熟练 使 用 Spark 的 开发 人 员 可 以 选择 跳 过 本 章 内 容 。 


oy 


本 章 将 在 介绍 SparkContext 初 始 化 过 程 的 同时 ， 向 读者 介绍 各 个 组 件 的 作用 ， 为 阅读 后 面 的 章节 打 好 基础 。Spark 中 的 组 件 很 多 ， 就 其 功能 而 言 涉及 网 络 通信 、 分 布 式 WE. Ah 1H. BR. WE, 
清理 、 文 件 服 务 、Web UI 的 方方面面 。 


3.1 SparkContext 概 述 



































Spark Driver 用 于 提交 用 户 应 用 程序 ， 实 际 可 以 看 作 Spark 的 客户 端 。 了 解 Spark Driver 的 初始 化 ， 有 助 于 读者 理解 用 户 应 用 程序 在 客户 端的 处 理 过 程 。 






































Spark Driver 的 初始 化 始终 围绕 着 SparkContext 的 初始 化 。SparkContext 可 以 算得 上 是 所 有 Spark 应 用 程序 的 发 动机 引擎 ， 轿 车 要 想 跑 起 来 ， 发 动机 首先 要 启动 。SparkContext 初 始 化 完毕 ， 才 能 向 








Spark 集 群 提交 任务 。 在 平坦 的 公路 上 ， 发 动机 只 需 以 较 低 的 转速 、 较 低 的 功率 就 可 以 游 思 有余; 在 山区 ， 你 可 能 需要 一 台 能 够 提供 大 功率 的 发 动机 才能 满足 你 的 需求 。 这 些 参数 都 是 通 ; 
门 、 档 位 等 传送 给 发 动机 的 ， 而 SparkContext 的 配置 参数 则 由 SparkConf 负 责 ，SparkConf 就 是 你 的 操作 面板 。 


驾驶 员 操作 油 
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SparkConf 的 构造 很 简单 ， 主 要 是 通过 ConcurrentHashMap 来 维护 各 种 Spark 的 配置 属性 。SparkConf 代 码 结构 见 代码 清单 3-1。Spark 的 配置 属性 都 是 以 “spark.” 开 头 的 字符 串 。 








代码 清单 3-1 SparkConf 代 码 结构 


class SparkConf (loadDefaults: Boolean) extends Cloneable with Logging { 
import SparkConf._ 
def this() = this (true) 
private val settings = new ConcurrentHashMap[String, String] () 
if (loadDefaults) { 
// 加 载 任何 以 spark. 开 头 的 系统 属性 
for ((key, value) <- Utils.getSystemProperties if key.startsWith("spark.")) { 
set (key, value) 


} 
} 
// 其 余 代码 省 略 





现在 开始 介绍 SparkContext。SparkContext 的 初始 化 步骤 如 下 : 
1) 创建 Spark 执 行 环境 SparkEnv; 

2) 创建 RDD 清 理 器 metadataCleaner; 

3) 创建 并 初始 化 Spark Ul; 

4) Hadoop 相 关 配置 及 Executor 环 境 变 量 的 设置 ; 


5) 创建 任务 调度 TaskScheduler; 





6) 创建 和 启动 DAGScheduler; 


w 


TaskScheduler 的 启动 ; 











oo 


) 初始 化 块 管理 器 BlockManager (BlockManager 是 存储 体系 的 主要 组 件 之 一 ， 将 在 第 4 章 介绍 ) ; 








Ko] 


启动 测量 系统 MetricsSystem ; 

10) 创建 和 启动 Executor 分 配 管理 器 ExecutorAllocationManager; 
11) ContextCleaner 的 创建 与 启动 ; 

12) Spark 环 境 更 新 ; 

13) 创建 DAGSchedulerSource 和 BlockManagerSource; 


14) 将 SparkContext 标 记 为 激活 。 














SparkContext 的 主 构造 器 参数 为 SparkConf， 其 实现 如 下 。 





class SparkContext (config: SparkConf) extends Logging with ExecutorAllocationClient { 
private val creationSite: CallSite = Utils.getCallSite() 
private val allowMultipleContexts: Boolean = 
config.getBoolean ("spark.driver.allowMultipleContexts", false) 
SparkContext.markPartiallyConstructed(this, allowMultipleContexts) 














上 面 代码 中 的 Callsite 存 储 了 线程 栈 中 最 靠近 栈 顶 的 用 户 类 及 最 靠近 栈 底 的 Scala 或 者 Spark 核 心 类 信息 。Utils.getCallsite 的 详细 信息 见 附录 A。SparkContext 默 认 只 有 一 个 实例 (由 属性 
spark.driver.allowMultipleContexts 来 控制 ， 用 户 需 要 多 个 SparkContext 实 例 时 ， 可 以 将 其 设置 为 true) ， 方 法 markPartiallyConstructed 用 来 确保 实例 的 唯一 性 ， 并 将 当前 SparkContext 标 记 为 正在 构 
建 中 。 









































接 下 来 会 对 SparkConf 进 行 复制 ， 然 后 对 各 种 配置 信息 进行 校 验 ， 代 码 如 下 。 


private[spark] val conf = config.clone() 
conf.validateSettings () 
if (!conf.contains("spark.master")) { 
throw new SparkException("A master URL must be set in your configuration") 


} 
if (!conf.contains ("spark.app.name")) { 
throw new SparkException("An application name must be set in your configuration") 


} 



























































从 上 面 校 验 的 代码 看 到 必须 指定 属性 spark.master 和 spark.app.name， 否 则 会 抛 出 异常 ， 结 束 初 始 化 过 程 。spark.master 用 于 设置 部 署 模 式 ，spark.app.name 用 于 指定 应 用 程序 名 称 。 














3.2 ”创建 执行 环境 SparkEnv 


SparkEnv 是 Spark 的 执行 环境 对 象 ， 其 中 包括 众多 与 Executor 执 行 相关 的 对 象 。 由 于 在 local 模 式 下 Driver 会 创建 Executor，local-cluster 部 署 模式 或 者 Standalone 部 署 模式 下 Worker 另 起 的 
CoarseGrainedExecutorBackend 进 程 中 也 会 创建 Executor， 所 以 SparkEnv 存 在 于 Driver 或 者 CoarseGrainedExecutorBackend 进 程 中 。 创 建 SparkEnv 主 要 使 用 SparkEnv 的 


createDriverEnv，SparkEnv.createDriverEnv 方 法 有 三 个 参数 : conf、isLocal 和 listenerBus。 


























val isLocal = (master == "local" || master.startsWith ("local[") ) 
private[spark] val listenerBus = new LiveListenerBus 
conf.set ("spark.executor.id", "driver") 


private[spark] val env = SparkEnv.createDriverEnv(conf, isLocal, listenerBus) 
SparkEnv.set (env) 








上 面 代码 中 的 conf 是 对 SparkConf 的 复制 ，isLocal 标 识 是 否 是 单机 模式 ，listenerBus 采 用 监听 器 模式 维护 各 类 事件 的 处 理 ， 在 3.4.1 节 会 详细 介绍 。 





























SparkEnv 的 方法 createDriverEnv 最 终 调用 create 他 J 建 SparkEnv。SparkEnv 的 构造 步骤 如 下 : 











1) 创建 安全 管理 器 SecurityManager; 





2) 创建 基于 Akka 的 分 布 式 消息 系统 ActorSystem; 


3) 创建 Map 任 务 输出 跟踪 器 mapOutputTracker; 





4) 实例 化 ShuffleManager; 


5) 创建 ShuffleMemoryManager; 
6) 创建 块 传输 服务 BlockTransferService; 
7) 创建 BlockManagerMaster; 


8) 创建 块 管理 器 BlockManager; 








9) 创建 广播 管理 器 BroadcastManager; 
10) 创建 缓存 管理 器 CacheManager; 
11) 创建 HTTP 文 件 服务 器 HttpFileServer; 
12) 创建 测量 系统 MetricsSystem; 


13) 创建 SparkEnv。 


3.2.1 ”安全 管理 器 SecurityManager 



































SecurityManager 主 要 对 权限 、 账 号 进行 设置 ， 如 果 使 用 Hadoop YARN 作 为 集群 管理 器 ， 则 需要 使 用 证 书生 成 secret key 登 录 ， 最 后 给 当前 系统 设置 默认 的 口令 认证 实例 ， 此 实例 采用 匿名 内 部 类 实 
现 ， 参 见 代 码 清单 3-2。 
































代码 清单 3-2 SecurityManager 的 实现 


private val secretKey = generateSecretKey () 
// 使 用 HTTP 连 接 设置 口令 认证 
if (authOn) { 
Authenticator.setDefault ( 
new Authenticator() { 
override def getPasswordAuthentication(): PasswordAuthentication = { 
var passAuth: PasswordAuthentication = null 
val userInfo = getRequestingURL() .getUserInfo () 
if (userInfo != null) { 
val parts = userInfo.split(":", 2) 
passAuth = new PasswordAuthentication (parts (0), parts (1) .toCharArray () ) 
} 


return passAuth 





3.2.2 ”基于 Akka 的 分 布 式 消息 系统 ActorSystem 





ActorSystem 是 Spark 中 最 基础 的 设施 ，Spark 既 使 用 它 发 送 分 布 式 消息 ， 又 用 它 实现 并 发 编程 。 消 息 系统 可 以 实现 并 发 》 要 解释 清楚 这 个 问题 ， 首 先 应 该 简单 介绍 下 Scala 语 言 的 Actor 并 发 编程 模型 : 
Scala 认 为 Java 线 程 通过 共享 数据 以 及 通过 锁 来 维护 共享 数据 的 一 致 性 是 糟糕 的 做 法 ， 容 易 引 起 锁 的 争 用 ， 降 低 并 发 程序 的 性 能 ， 甚 至 会 引入 死 锁 的 问题 。 在 Scala 中 只 需要 自 定 义 类 型 继承 Actor， 并 且 提 供 
act 方 法 ， 就 如 同 Java 里 实现 Runnable 接 口 ， 需 要 实现 run 方 法 一 样 。 但 是 不 能 直接 调用 act 方 法 ， 而 是 通过 发 送 消息 的 方式 (Scala 发 送 消息 是 异步 的 ) 传递 数据 。 如 : 









































Actor ! message 






































Akka 是 Actor 编 程 模型 的 高 级 类 库 ， 类 似 于 JDK 1.5 之 后 越 来 越 丰富 的 并 发 工具 包 ， 简 化 了 程序 员 并 发 编程 的 难度 。ActorSystem 便 是 Akka 提 供 的 用 于 创建 分 布 式 消息 通信 系统 的 基础 类 。Akka 的 具体 
信息 见 附录 B。 


























正 是 因为 Actor 轻 量 级 的 并 发 编程 、 消 息 发 送 以 及 ActorSystem 支 持 分 布 式 消息 发 送 等 特点 ，Spark 选 择 了 ActorSystem。 


























SparkEnv 中 创建 ActorSystem 时 用 到 了 AkkaUtils 工 具 类 ， 见 代码 清单 3-3。AkkaUtils.createActorSystem 方 法 用 于 启动 ActorSystem， 见 代码 清单 3-4。AkkaUtils 使 用 了 Utils 的 静态 方法 
startServiceOnPort，startServiceOnPort 最 终 会 回调 方法 startService: Int=> (T, Int) ， 此 处 的 startService 实 际 是 方法 doCreateActorSystem。 真 正 启动 ActorSystem 是 由 doCreate-ActorSystem 方 
法 完成 的 ，doCreateActorSystem 的 具体 实现 细节 请 见 附录 B。Spark 的 Driver 中 Akka 的 默认 访问 地 址 是 akka: //sparkDriver，Spark 的 Executor 中 Akka 的 默认 访问 地 址 是 akka: //sparkExecutor。 如 果 
不 指定 ActorSystem 的 端口 ， 那 么 所 有 节点 的 ActorSystem 端 口 在 每 次 启动 时 随机 产生 。 关 于 startServiceOnPort 的 实现 ， 请 见 附 录 A。 



























































代码 清单 3-3 AkkaUtils 工 具 类 创建 和 启动 ActorSystem 





val (actorSystem, boundPort) = 
Option (defaultActorSystem) match { 
case Some(as) => (as, port) 
case None => 
val actorSystemName = if (isDriver) driverActorSystemName else executorActorSystemName 
AkkaUtils.createActorSystem(actorSystemName, hostname, port, conf, securityManager) 





代码 清单 3-4 ”ActorSystem 的 创建 和 启动 


def createActorSystem ( 
name: String, 
host: String, 


port: Int, 

conf: SparkConf, 

securityManager: SecurityManager): (ActorSystem, Int) = { 
val startService: Int => (ActorSystem, Int) = { actualPort => 


doCreateActorSystem(name, host, actualPort, conf, securityManager) 


Utils.startServiceOnPort (port, startService, conf, name) 





3.2.3 map 任务 输出 跟踪 器 mapOutputTracker 








mapOutputTracker 用 于 跟踪 map 阶 段 任务 的 输出 状态 ， 此 状态 便于 reduce 阶 段 任务 获取 地 址 及 中 间 输 出 结果 。 每 个 map 任 务 或 者 reduce 任 务 都 会 有 其 唯一 标识 ， 分 别 为 mapld 和 reduceld。 每 个 

















reduce 任 务 的 输入 可 能 是 多 个 map 任 务 的 输出 ，reduce 会 到 各 个 map 任 务 的 所 在 节点 上 拉 取 Block， 这 一 过 程 叫做 shuffle。 每 批 shuffle 过 程 都 有 唯一 的 标识 shuffleld。 





这 里 先 介绍 下 MapOutputTrackerMaster。MapOutputTrackerMaster 内 部 使 用 mapStatuses: TimeSstampedHashMap[lnt，Array[MapStatus]] 来 维护 跟踪 各 个 map 任 务 的 输出 状态 。 其 中 key 对 


应 shuffleld，Array 存 储 各 个 map 任 务 对 应 的 状态 信息 MapStatus。 由 于 MapStatus 维 护 了 map 输 出 Block 的 地 址 BlockManagerld， 所 以 reduce 任 务 知道 从 何 处 获取 map 任 务 的 中 间 输 出 。 
MapOutputTrackerMaster 还 使 用 cachedSerializedStatuses: TimeStampedHashMap[Int，Array[Byte]] 维 护 序列 化 后 的 各 个 map 任 务 的 输出 状态 。 其 中 key 对 应 shuffleld，Array 存 储 各 个 序列 化 


MapStatus 生 成 的 字 节 数组 。 





Driver 和 Executor 处 理 MapOutputTrackerMaster 的 方式 有 所 不 同 。 
' 如 果 当 前 应 用 程序 是 Driver， 则 创建 MapOutputTrackerMaster， 然 后 创建 MapOutputTrackerMasterActor， 并 且 注册 到 ActorSystem 中 。 


“如果 当 前 应 用 程序 是 Executor， 则 创建 MapOutputTrackerWorker， 并 从 ActorSystem 中 找到 MapOutputTrackerMasterActor。 








无 论 是 Driver 还 是 Executor， 最 后 都 由 mapOutputTracker 的 属性 trackerActor 持 有 MapOutputTrackerMasterActor 的 引用 ， 参 见 代 码 清单 3-5。 


代码 清单 3-5 ”registerOrLookup 方 法 用 于 查找 或 者 注册 Actor 的 实现 





SerializedStatuses 的 。Executor 究 竟 是 如 何 找到 MapOutputTrackerMasterActor 的 ? registerOrLookup 方 法 通过 调用 AkkaUtils.makeDriverRef 找 到 MapOutputTrackerMasterActor， 实 际 正 是 利 


Act 


3.2 


def registerOrLookup(name: String, newActor: => Actor): ActorRef = { 
if (isDriver) { 
logInfo ("Registering " + name) 
actorSystem.actorOf (Props (newActor), name = name) 
} else { 
AkkaUtils.makeDriverRef (name, conf, actorSystem) 
} 
} 


val mapOutputTracker = if (isDriver) { 
new MapOutputTrackerMaster (conf) 
} else { 


new MapOutputTrackerWorker (conf) 
mapOutputTracker.trackerActor = registerOrLookup ( 


"MapOutputTracker", 
new MapOutputTrackerMasterActor (mapOutputTracker.asInstanceOf [MapOutputTrackerMaster], conf) ) 


在 后 面 章节 大 家 会 知道 map 任 务 的 状态 正 是 由 Executor 向 持 有 的 MapOutputTracker-MasterActor 发 送 消息 ， 将 map 任 务 状态 同步 到 mapOutputTracker 的 mapStatuses 和 cached- 



























































orsystem 提 供 的 分 布 式 消息 机 制 实现 的 ， 具 体 细节 参见 附录 B。 这 里 第 一 次 使 用 到 了 Akka 提 供 的 功能 ， 以 后 大 家 会 渐渐 感觉 到 使 用 Akka 的 便捷 。 























A 实例 化 ShuffleManager 








ShuffleManager 负 责 管理 本 地 及 远程 的 block 数 据 的 shuffle 操 作 。ShuffleManager 默 认为 通过 反射 方式 生成 的 SortShuffleManager 的 实例 ， 可 以 修改 属性 spark.shuffle.manager 为 hash 来 显 式 控制 








pa SortShuffleManager 通 过 持 有 的 IndexShuffleBlockManager 间 接 操作 BlockManager 中 的 DiskBlockManager 将 map 结 果 写 入 本 地 ， 并 根据 shuffleld、mapld 写 入 索引 文 





使 














件 ， 





也 能 通过 MapOutputTrackerMaster 中 维护 的 mapStatuses 从 本 地 或 者 其 他 远程 节点 读 取 文件 。 有 读者 可 能 会 问 ， 为 什么 需要 shuffle? Spark 作 为 并 行 计算 框架 ， 同 一 个 作业 会 被 划分 为 多 个 任务 在 多 



































个 节点 上 并 行 执行 ，reduce 的 输入 可 能 存在 于 多 个 节点 上 ， 因 此 需要 通过 “ 洗 牌 ”将 所 有 reduce 的 输入 汇总 起 来 ， 这 个 过 程 就 是 shuffle。 这 个 问题 以 及 对 ShuffleManager 的 具体 使 用 会 在 第 5 章 和 第 6 章 详 














ShuffleManager 的 实例 化 见 代 码 清 单 3-6。 代 码 清单 3-6 最 后 创建 的 ShuffleMemoryManager 将 在 3.2.5 节 介绍 


代码 清单 3-6 _ ShuffleManager 的 实例 化 及 ShuffleMemoryManager 的 创建 





val shortShuffleMgrNames = Map( 
"hash" -> "org.apache.spark.shuffle.hash.HashShuffleManager", 
"sort" -> "org.apache.spark.shuffle.sort.SortShuffleManager") 

val shuffleMgrName = conf.get ("spark.shuffle.manager", "sort") 

val shuffleMgrClass = shortShuffleMgrNames.get 

OrElse (shuffleMgrName.toLowerCase, shuffleMgrName) 
val shuffleManager = instantiateClass [ShuffleManager] (shuffleMgrClass) 
val shuffleMemoryManager = new ShuffleMemoryManager (conf) 





3.2.5 shuffle 线 程 内 存 管理 器 ShuffleMemoryManager 





ShuffleMemoryManager 负 责 管理 shuffle 线 程 占有 内 存 的 分 配 与 释放 ， 并 通过 thread-Memory: mutable.HashMap[Long，Long] 缓 存 每 个 线程 的 内 存 字 节 数 ， 见 代码 清单 3-7。 


代码 清单 3-7 ”ShuffleMemoryManager 的 数据 结构 








private[spark] class ShuffleMemoryManager (maxMemory: Long) extends Logging { 
private val threadMemory = new mutable.HashMap[Long, Long]() // threadId -> memory bytes 
def this(conf: SparkConf) = this (ShuffleMemoryManager.getMaxMemory (conf) ) 





getMaxMemory 方 法 用 于 获取 shuffle 所 有 线程 占用 的 最 大 内 存 ， 实 现 如 下 。 

















def getMaxMemory(conf: SparkConf): Long = { 
val memoryFraction = conf.getDouble("spark.shuffle.memoryFraction", 0.2) 
val safetyFraction = conf.getDouble("spark.shuffle.safetyFraction", 0.8) 
(Runtime.getRuntime.maxMemory * memoryFraction * safetyFraction) .toLong 














从 上 面 代 码 可 以 看 出 ，shuffle 所 有 线程 占用 的 最 大 内 存 的 计算 公式 为 : 














Java 运 行 时 最 大 内 存 *Spatk 的 shufe 最 大 内 存 占 比 *Spatk 的 安全 内 存 占 比 





可 以 配置 属性 spark.shuffle.memoryFraction 修 改 Spark 的 shuffle 最 大 内 存 占 比 ， 配 置 属性 spark.shuffle.safetyFraction 修 改 Spark 的 安全 内 存 占 比 。 





= 
局 


ShuffleMemoryManaget 通 常 运行 在 Executor 中 ，Driver 中 的 ShufleMemoryManager 只 有 在 local 模 式 下 才 起 作用 。 


3.2.6” 块 传输 服务 BlockTransferService 
































BlockTransferService 默 认为 NettyBlockTransferService (可 以 配置 属性 spark.shuffle.blockTransferService 使 用 NioBlockTransferService) ， 它 使 用 Netty 提 供 的 异步 事件 驱动 的 网 络 应 用 框架 ， 提 
供 web 服 务 及 客户 端 ， 获 取 远 程 节点 上 Block 的 集合 。 


























val blockTransferService = 
conf.get ("spark.shuffle.blockTransferService", "netty") .toLowerCase match { 
case "netty" => 
new NettyBlockTransferService (conf, securityManager, numUsableCores) 
case "nio" => 
new NioBlockTransferService (conf, securityManager) 
























































NettyBlockTransferservice 的 具体 实现 将 在 第 4 章 详细 介绍 。 这 里 大 家 可 能 觉得 奇怪 ， 这 样 的 网 络 应 用 为 何 也 要 放 在 存储 体系 ”大 家 不 妨 先 带 着 疑问 ， 直 到 你 真正 了 解 了 存储 体系 。 























3.2.7 BlockManagerMaster 介 绍 























BlockManagerMaster 负 责 对 Block 的 管理 和 协调 ， 具 体操 作 依 赖 于 BlockManager-MasterActor。Driver 和 Executor 处 理 BlockManagerMaster 的 方式 不 同 : 


“如果 当前 应 用 程序 是 Driver， 则 创建 BlockManagerMasterActor， 并 且 注 册 到 Actor-System 中 。 





+ 如 果 当 前 应 用 程序 是 Executor， 则 从 ActorSystem 中 找到 BlockManagerMasterActor。 











无 论 是 Driver 还 是 Executor， 最 后 BlockManagerMaster 的 属性 driverActor 将 持 有 对 BlockManagerMasterActor 的 引用 。BlockManagerMaster 的 创建 代码 如 下 。 











val blockManagerMaster = new BlockManagerMaster (registerOrLookup ( 
"BlockManagerMaster", 
new BlockManagerMasterActor(isLocal, conf, listenerBus)), conf, isDriver) 








registerOrLookup 已 在 3.2.3 节 介绍 过 了 ， 不 再 敖 述 。BlockManagerMaster 及 BlockManager-MasterActor 的 具体 实现 将 在 第 4 章 详细 介绍 。 


3.2.8 ”创建 块 管理 器 BlockManager 
































BlockManager 负 责 对 Block 的 管理 ， 只 有 在 BlockManager 的 初始 化 方法 initialize 被 调用 后 ， 它 才 是 有 效 的。BlockManager 作 为 存储 系统 的 一 部 分 ， 具 体 实现 见 第 4 章 。BlockManager 的 创建 代码 如 
下 。 











val blockManager = new BlockManager (executorId, actorSystem, blockManagerMaster, 
serializer, conf, mapOutputTracker, shuffleManager, blockTransferService, securityManager, numUsableCores) 





3.2.9 ”创建 广播 管理 器 BroadcastManager 


























BroadcastManager 用 于 将 配置 信息 和 序列 化 后 的 RDD、Job 以 及 ShuffleDependency 等 信息 在 本 地 存储 。 如 果 为 了 容 灾 ， 也 会 复制 到 其 他 节点 上 。 创 建 BroadcastManager 的 代码 实现 如 下 。 


val broadcastManager = new BroadcastManager(isDriver, conf, securityManager) 











BroadcastManager 必 须 在 其 初始 化 方法 initialize 被 调用 后 ， 才 能 生效 。initialize 方 法 实际 利用 反射 生成 广播 工厂 实例 broadcastFactory (可 以 配置 属性 spark.broadcast.factory 指 定 ， 默 认为 
org.apache.spark.broadcast.TorrentBroadcastFactory) 。BroadcastManager 的 广播 方法 newBroadcast 实 际 代理 了 工厂 broadcastFactory 的 newBroadcast 方 法 来 生成 广播 对 象 。unbroadcast 方 法 实 
际 代理 了 工厂 broadcastFactory 的 unbroadcast 方 法 生成 非 广播 对 象 。BroadcastManager 的 initialize、unbroadcast 及 newBroadcast 方 法 见 代码 清单 3-8。 





代码 清单 3-8 ”BroadcastManager 的 实现 


private def initialize() { 
synchronized { 
if (!initialized) { 
val broadcastFactoryClass = conf.get ("spark.broadcast.factory", "org.apache.spark.broadcast.TorrentBroadcastFactory") 
broadcastFactory = 
Class. forName (broadcastFactoryClass) .newInstance.asInstanceOf [BroadcastFactory] 

broadcastFactory.initialize(isDriver, conf, securityManager) 
initialized = true 


} 

} 

private val nextBroadcastId = new AtomicLong (0) 

def newBroadcast[T: ClassTag] (value_ : T, isLocal: Boolean) = { 
broadcastFactory.newBroadcast [T] (value _, isLocal, nextBroadcastId.getAndIncrement () ) 

} 

def unbroadcast (id: Long, removeFromDriver: Boolean, blocking: Boolean) { 
broadcastFactory.unbroadcast (id, removeFromDriver, blocking) 


} 





3.2.10 ”创建 缓存 管理 器 CacheManager 























CacheManager 用 于 缓存 RDD 某 个 分 区 计算 后 的 中 间 结 果 ， 缓 存 计算 结果 发 生 在 迭代 计算 的 时 候 ， 将 在 6.1 节 讲 到 。 而 CacheManager 将 在 4.10 节 详细 描述 。 创 建 CacheManager 的 代码 如 下 。 





val cacheManager = new CacheManager (blockManager) 


3.2.11 HTTP 文 件 服务 器 HttpFileServer 








HttpFileServer 的 创建 参见 代码 清单 3-9。HttpFileServer 主 要 提供 对 jar 及 其 他 文件 的 http 访 问 ， 这 些 jar 包 包括 用 户 上 传 的 jar 包 。 端 口 由 属性 spark.fileserver.port 配 置 ， 默 认为 0， 表 示 随 机 生成 端 























代码 清单 3-9 ”HttpFileServer 的 创建 


val httpFileServer = 
if (isDriver) { 
val fileServerPort = conf.getInt ("spark.fileserver.port", 0) 


val server = new HttpFileServer (conf, securityManager, fileServerPort) 
server. initialize() 
conf.set ("spark.fileserver.uri", server.serverUri) 
server 
} else { 
null 
$ 


HttpFileServer 的 初始 化 过 程 见 代码 清单 3-10， 主 要 包括 以 下 步 又: 
































1) 使 用 Utils 工 具 类 创建 文件 服务 器 的 根 目录 及 临时 目录 (临时 目录 在 运行 时 环境 关闭 时 会 删除 ) 。Utils 工 具 的 详细 介绍 见 附录 A。 








2) 创建 存放 jar 包 及 其 他 文件 的 文件 目录 。 
3) 创建 并 启动 HTTP 服 务 。 


代码 清单 3-10 ”HttpFileServer 的 初始 化 





def initialize() { 
baseDir = Utils.createTempDir (Utils.getLocalDir (conf), "httpd") 
fileDir new File(baseDir, "files") 
jarDir = new File(baseDir, "jars") 
fileDir.mkdir () 
jarDir.mkdir() 
logInfo ("HTTP File server directory is " + baseDir) 
httpServer = new HttpServer(conf, baseDir, securityManager, requestedPort, "HTTP file server") 
httpServer.start () 
serverUri = httpServer.uri 
logDebug ("HTTP file server started at: " + serverUri) 





























HttpServer 的 构造 和 start 方 法 的 实现 中 ， 再 次 使 用 了 Utils 的 静态 方法 startServiceOnPort， 因 此 会 回调 doStart 方 法 ， 见 代码 清单 3-11。 有 关 Jetty 的 API 使 








Y 


见 附录 C。 





代码 清单 3-11 ”HttpServer 的 启动 





def start() { 


if (server != null) { 
throw new ServerStateException ("Server is already started") 
} else { 


logInfo ("Starting HTTP Server") 
val (actualServer, actualPort) = 
Utils.startServiceOnPort [Server] (requestedPort, doStart, conf, serverName) 
server = actualServer 
port = actualPort 





doStartFidé haa AmAVettyATEHEAIHTT PERS, ARIA R3-12, 


代码 清单 3-12 ”HttpServer 的 启动 功能 实现 





private def doStart (startPort: Int): (Server, Int) = { 
val server = new Server () 
val connector = new SocketConnector 
connector.setMaxIdleTime (60 * 1000) 
connector.setSoLingerTime (-1) 
connector.setPort (startPort) 
server .addConnector (connector) 
val threadPool = new QueuedThreadPool 
threadPool.setDaemon (true) 
server .setThreadPool (threadPool) 
val resHandler = new ResourceHandler 
resHandler.setResourceBase (resourceBase.getAbsolutePath) 
val handlerList = new HandlerList 
handlerList.setHandlers (Array (resHandler, new DefaultHandler) ) 
if (securityManager.isAuthenticationEnabled()) { 
logDebug("HttpServer is using security") 
val sh = setupSecurityHandler (securityManager) 
// make sure we go through security handler to get resources 
sh.setHandler (handlerList) 
server. setHandler (sh) 
} else { 
logDebug("HttpServer is not using security") 
server. setHandler (handlerList) 
} 
server.start () 
val actualPort = server.getConnectors () (0) .getLocalPort 
(server, actualPort) 


3.2.12 ”创建 测量 系统 MetricsSystem 


MetricsSystem 是 Spark 的 测量 系统 ， 创 建 MetricsSystem 的 代码 如 下 。 





val metricsSystem = if (isDriver) { 
MetricsSystem.createMetricsSystem("driver", conf, securityManager) 
} else { 
conf.set ("spark.executor.id", executorId) 
val ms = MetricsSystem.createMetricsSystem("executor", conf, securityManager) 
ms.start () 
ms 

















上 面 调用 的 createMetricsSystem 方 法 实际 创建 了 MetricsSystem ， 代 码 如 下 。 


def createMetricsSystem ( 
instance: String, conf: SparkConf, securityMgr: SecurityManager): MetricsSystem = { 
new MetricsSystem(instance, conf, securityMgr) 








构造 MetricsSystem 的 过 程 最 





要 的 是 调用 了 MetricsConfig 的 initialize 方 法 ， 见 代码 清单 3-13。 








代码 清单 3-13 ”MetricsConfig 的 初始 化 





def initialize() { 
setDefaultProperties (properties) 
var is: InputStream = null 


try { 
is = configFile match { 
case Some(f) => new FileInputStream (f) 
case None => Utils.getSparkClassLoader.getResourceAsStream (METRICS_CONF) 
} 
if (is != null) { 
properties.load (is) 


} 
} catch { 
case e: Exception => logError("Error loading configure file", e) 
} finally { 
if (is != null) is.close() 
} 
propertyCategories = subProperties (properties, INSTANCE_REGEX) 
if (propertyCategories.contains (DEFAULT PREFIX)) { 
import scala.collection.JavaConversions._ 
val defaultProperty = propertyCategories (DEFAULT_PREFIX) 
for { (inst, prop) <- propertyCategories 
if (inst != DEFAULT PREFIX) 
(k, v) <- defaultProperty 
if (prop.getProperty(k) == null) } { 
prop.setProperty (k, v) 
} 











从 以 上 实现 可 以 看 出 ，MetricsConfig 的 initialize 方 法 主要 负责 加 载 metrics.properties 文 件 中 的 属性 配置 ， 并 对 属性 进行 初始 化 转换 。 





例如 ， 将 属性 





{*,.sink.servlet.path=/metrics/json, applications.sink.servlet.path=/metrics/applications/json, *.sink.servlet.class=org.apache.spark.metrics.sink.MetricsServlet, master.sink.se 





转换 为 





Map (applications -> {sink.servlet.class=org.apache.spark.metrics.sink.MetricsServlet, sink.servlet.path=/metrics/applications/json}, master -> {sink.servlet.class=org.apache.sp 





3.2.13 ”创建 SparkEnv 


























当 所 有 的 基础 组 件 准 备 好 后 ， 最 终 使 用 下 面 的 代码 创建 执行 环境 SparkEnv。 





new SparkEnv(executorId, actorSystem, serializer, closureSerializer, cacheManager, 
mapOutputTracker, shuffleManager, broadcastManager, blockTransferService, 
blockManager, securityManager, httpFileServer, sparkFilesDir, 
metricsSystem, shuffleMemoryManager, conf) 





Ors 


serializer 和 closureSerializer 都 是 使 用 Class.forName 反 射 生成 的 org.apache.spark.serializer.JavaSerializer 类 的 实例 ， 其 中 closureSerializer 实 例 特别 用 来 对 Scala 中 的 闭 包 进行 序列 化 。 


3.3 ”创建 metadataCleaner 











SparkContext 为 了 保持 对 所 有 持久 化 的 RDD 的 跟踪 ， 使 用 类 型 是 TimeStamped-WeakValueHashMap 的 persistentRdds 缓 存 。metadataCleaner 的 功能 是 清除 过 期 的 持久 化 RDD。 创 建 
metadataCleaner 的 代码 如 下 。 








private[spark] val persistentRdds = new TimeStampedWeakValueHashMap[Int, RDD[_]] 
private[spark] val metadataCleaner = 
new MetadataCleaner (MetadataCleanerType.SPARK_CONTEXT, this.cleanup, conf) 





我 们 仔细 看 看 MetadataCleaner 的 实现 ， 见 代码 清单 3-14。 


代码 清单 3-14 MetadataCleaner 的 实现 





private[spark] class MetadataCleaner ( 
cleanerType: MetadataCleanerType.MetadataCleanerType, 
cleanupFunc: (Long) => Unit, 
conf: SparkConf) 
extends Logging 


val name = cleanerType.toString 
private val delaySeconds = MetadataCleaner.getDelaySeconds (conf, cleanerType) 
private val periodSeconds = math.max(10, delaySeconds / 10) 
private val timer = new Timer (name + " cleanup timer", true) 
private val task = new TimerTask { 
override def run() { 


try { 
cleanupFunc (System.currentTimeMillis() - (delaySeconds * 1000) ) 
logInfo("Ran metadata cleaner for " + name) 

} catch { 


case e: Exception => logError ("Error running cleanup task for " + name, e) 
} 


} 
if (delaySeconds > 0) { 
timer.schedule (task, delaySeconds * 1000, periodSeconds * 1000) 
} 
def cancel() { 
timer.cancel () 


} 


























从 MetadataCleaner 的 实现 可 以 看 出 其 实质 是 一 个 用 TimerTask 实 现 的 定时 器 ， 不 断 调用 cleanupFunc: (Long) =>Unit 这 样 的 函数 参数 。 构 造 metadataCleaner 时 的 函数 参数 是 cleanup， 用 于 清 
理 persistentRdds 中 的 过 期 内 容 ， 代 码 如 下 。 






































private[spark] def cleanup(cleanupTime: Long) { 
persistentRdds.clearOldValues (cleanupTime) 
} 





3.4 SparkUl 详 解 


任何 系统 都 需要 提供 监控 功能 ， 


在 大 型 分 布 式 系统 中 ， 


Driver 所 在 JVM 的 线程 数量 | 








用 浏览 器 能 访问 具有 样式 及 布 











采用 事件 监听 机 制 是 最 常见 的 。 为 什么 要 使 用 事件 监听 机 制 ?假如 SparkUl 采 用 Scala 的 函数 调用 

















局 并 提供 丰富 监控 数据 的 页 面 无 疑 是 一 种 简单 、 高 效 的 方式 。SparkUl 就 是 这 样 的 服务 ， 它 的 架构 如 





图 








3-1 所 示 。 





方式 ， 那 么 随 着 整个 集群 规模 的 增加 ， 对 函数 的 调用 会 越 来 越 多 ， 最 终 会 受到 




















限制 而 影响 监控 数据 的 更 新 ， 甚 至 出 现 监控 数据 无 法 及 时 显示 给 用 户 的 情况 。 由 于 函数 调用 多 数 | 














题 ， 导 致 线程 被 长 时 间 占 


缓存 ， 由 定时 调度 器 取出 后 ， 分 配给 监 


。 将 函数 调用 更 换 为 发 送 事件 ， 事 件 的 处 理 是 异步 的 ， 当 前 线程 可 以 继续 执行 后 续 逻 辑 ， 线 程 池 
听 此 事件 的 监听 器 对 监控 数据 进行 更 新 。 
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我 们 先 简单 介绍 医 
SparkListenerEvent 事 件 | 


JobProgressListener、EnvironmentListener、StorageListener、ExecutorsListener， 它 们 的 类 继承 体系 如 


EnvironmentListener | 


StorageTab 
RDDPage 


ExecutorsTab 
ExecutorThreadDumpPage? | 





图 3-1 SparkUI 架 构 








匹配 到 具体 的 SparkListener， 改 变 SparkListener 中 的 统计 监控 数据 ， 最 终 由 SparkUl 的 界面 展示 














3-2 所 示 。 








情况 下 是 同步 调用 ， 这 就 导致 线程 被 阻塞 ， 在 分 布 式 环境 中 ， 还 可 能 因为 网 络 问 
中 的 线程 还 可 以 被 重用 ， 这 样 整个 系统 的 并 发 度 会 大 大 增加 。 发 送 的 事件 会 存 入 




















DAGScheduler 4! 


ExecutorsListener £1 


3-1 中 的 各 个 组 件 : DAGScheduler 是 主要 的 产生 各 类 SparkListener-Event 的 源头 ， 它 将 各 种 SparkListenerEvent 发 送 到 listenerBus 的 事件 队列 中 ，listenerBus 通 过 定时 器 将 


。 从 图 3-1 中 还 可 以 看 到 Spark 里 定义 了 很 多 监听 器 SparkListener 的 实现 ， 包 括 





SparkListener 


+ onStageCompleted(stageCompleted : SparkListenerStageCompleted) : void 

+ onStageSubmitted(stageSubmitted : SparkListenerStageSubmitted) : void 

+ onTaskStart(taskStart ; SparkListenerTaskStart) ; void 

+ onTaskGettingResult(taskGettingResult : SparkListenerTaskGettingResult) : void 

+ onTaskEnd(taskEnd : SparkListenerTaskEndq) : void 

+ onJobStart(jobStart : SparkListenerJobStart) : void 

+ onJobEnd(jobEnd : SparkListenerJobEnd) : void 

+ onEnvironmentUpdate(environmentUpdate SparkListenerEnvironmentUpdate) : void 

+ onBlockManagerAdded(blockManagerAdded : SparkListenerBlockManagerAdded) : void 

+ onBlockManagerRemoved(blockManagerRemoved : SparkListenerBlockManagerRemoved) : void 
+ onUnpersistRDD(unpersistRDD : SparkListenerUnpersistRDD) : void 

+ onApplicationStart(applicationStart : SparkListenerApplicationStart) : void 

+ onApplicationEnd({applicationEnd : SparkListenerApplicationEnd) : void 

+ onExecutorMetricsUpdate(executorMetricsUpdate : SparkListenerExecutorMetricsUpdate) : void 


JobProgressListener EnvironmentListener StorageListener ExecutorsListener 





图 3-2 ”SparkListenet 的 类 继承 体系 


3.4.1 listenerBus 详 解 


listenerBus 的 类 型 是 LiveListenerBus。LiveListenerBus 实 现 了 监听 器 模型 ， 通 过 监听 事件 触发 对 各 种 监听 器 监听 状态 信息 的 修改 ， 达 到 Ul 界 面 的 数据 刷新 效果 。LiveListenerBus 由 以 下 部 分 组 成 : 
- 事件 阻塞 队列 : 类 型 为 LinkedBlockingQueue[SparkListenerEvent]， 固 定 大 小 是 10000; 
“监听 器 数组 : 类 型 为 ArrayBuffer[SparkListenetlj， 存 放 各 类 监听 器 SparkListener。 


“事件 匹配 监听 器 的 线程 : 此 Thread 不 断 拉 取 LinkedBlockingQueue 中 的 事件 ， 遍 历 监听 器 ， 调 用 监听 器 的 方法 。 任 何事 件 都 会 在 LinkedBlockingQueue 中 存在 一 段 时 间 ， 然 后 Thread 处 理 了 此 事件 后 ， 会 将 
其 清除 。 因 此 使 用 listenerBus 这 个 名 字 再 合适 不 过 了 ， 到 站 就 下 车 。listenerBus 的 实现 见 代 码 清单 3-15。 


代码 清单 3-15 ”LiveListenerBus 的 事件 处 理 实现 





private val EVENT QUEUE CAPACITY = 10000 
private val eventQueue = new LinkedBlockingQueue[SparkListenerEvent] (EVENT QUEUE CAPACITY) 
private var queueFullErrorMessageLogged = false 
private var started = false 
// A counter that represents the number of events produced and consumed in the queue 
private val eventLock = new Semaphore (0) 
private val listenerThread = new Thread("SparkListenerBus") { 
setDaemon (true) 
override def run(): Unit = Utils.logUncaughtExceptions { 
while (true) { 
eventLock. acquire () 
// Atomically remove and process this event 
LiveListenerBus.this.synchronized { 
val event = eventQueue.poll 
if (event == SparkListenerShutdown) { 
// Get out of the while loop and shutdown the daemon thread 
return 


} 
Option (event) . foreach (PostToA11) 
} 
} 
} 


def start () { 
if (started) { 
throw new IllegalStateException ("Listener bus already started!") 


listenerThread. start () 
started = true 
} 
def post (event: SparkListenerEvent) { 
val eventAdded = eventQueue.offer (event) 
if (eventAdded) { 
eventLock. release () 
} else { 
logQueueFullErrorMessage () 
} 


def listenerThreadIsAlive: Boolean = synchronized { listenerThread.isAlive } 
def queueIsEmpty: Boolean = synchronized { eventQueue.isEmpty } 
def stop() { 
if (!started) { 
throw new IllegalStateException ("Attempted to stop a listener bus that has not yet started!") 
} 
post (SparkListenerShutdown) 
listenerThread. join () 
} 





LiveListenerBus 中 调用 的 postToAlI 方 法 实际 定义 在 父 类 SparkListenerBus 中 ， 如 代码 清单 3-16 所 示 。 





代码 清单 3-16 ”SparkListenerBus 中 的 监听 器 调用 





protected val sparkListeners = new ArrayBuffer [SparkListener] 
with mutable.SynchronizedBuffer [SparkListener] 
def addListener (listener: SparkListener) { 
sparkListeners += listener 
} 
def postToAll (event: SparkListenerEvent) { 
event match { 
case stageSubmitted: SparkListenerStageSubmitted => 
foreachListener (_.onStageSubmitted (stageSubmitted) ) 
case stageCompleted: SparkListenerStageCompleted => 
foreachListener (_.onStageCompleted (stageCompleted) ) 
case jobStart: SparkListenerJobStart => 
foreachListener (_.onJobStart (jobStart) ) 
case jobEnd: SparkListenerJobEnd => 
foreachListener (_.onJobEnd (jobEnd) ) 
case taskStart: SparkListenerTaskStart => 
foreachListener (_.onTaskStart (taskStart) ) 
case taskGettingResult: SparkListenerTaskGettingResult => 
foreachListener (_.onTaskGettingResult (taskGettingResult) ) 
case taskEnd: SparkListenerTaskEnd => 
foreachListener (_.onTaskEnd (taskEnd) ) 
case environmentUpdate: SparkListenerEnvironmentUpdate => 
foreachListener (_.onEnvironmentUpdate (environmentUpdate) ) 
case blockManagerAdded: SparkListenerBlockManagerAdded => 
foreachListener (_.onBlockManagerAdded (blockManagerAdded) ) 
case blockManagerRemoved: SparkListenerBlockManagerRemoved => 
foreachListener (_.onBlockManagerRemoved (blockManagerRemoved) ) 
case unpersistRDD: SparkListenerUnpersistRDD => 
foreachListener (_.onUnpersistRDD(unpersistRDD) ) 
case applicationStart: SparkListenerApplicationStart => 
foreachListener (_.onApplicationStart (applicationStart) ) 
case applicationEnd: SparkListenerApplicationEnd => 
foreachListener (_.onApplicationEnd (applicationEnd) ) 
case metricsUpdate: SparkListenerExecutorMetricsUpdate => 
foreachListener (_.onExecutorMetricsUpdate (metricsUpdate) ) 
case SparkListenerShutdown => 
} 
} 
private def foreachListener(f: SparkListener => Unit): Unit = { 
sparkListeners.foreach { listener => 
try { 
f (listener) 
} catch { 
case e: Exception => 
logError(s"Listener ${Utils.getFormattedClassName (listener) } threw an exception", e) 





3.4.2 ”构造 JobProgressListener 


我 们 以 JobProgressListener 为 例 来 讲解 SparkListener。JobProgressListener 是 SparkContext 中 一 个 
际 上 也 是 通过 JobProgressListener 来 实现 任务 状态 跟踪 的 。 创 建 JobProgressListener 的 代码 如 下 。 








要 的 组 成 部 分 ， 通 过 监听 listenerBus 中 的 事件 更 新 任务 进度 。SparkStatusTracker 和 SparkUl 实 








private[spark] val jobProgressListener = new JobProgressListener (conf) 
listenerBus .addListener (jobProgressListener) 
val statusTracker = new SparkStatusTracker (this) 














JobProgressListener 的 作用 是 通过 HashMap、ListBuffer 等 数据 结构 存储 Jobld 及 对 应 的 JobUIData 信 息 ， 并 按照 激活 、 完 成 、 失 败 等 job 状态 统计 。 对 于 stageld、stagelnfo 等 信息 按照 激活 、 完 
成 、 忽 略 、 失 败 等 stage 状态 统计 ， 并 且 存 储 Stageld 与 Jobld 的 一 对 多 关系 。 这 些 统计 信息 最 终 会 被 JobPage 和 StagePage 等 页 面 访问 和 渲染 。JobProgressListener 的 数据 结构 见 代 码 清单 3-17。 
































代码 清单 3-17 JobProgressListener 维 护 的 信息 





class JobProgressListener (conf: SparkConf) extends SparkListener with Logging { 
import JobProgressListener._ 
type JobId = Int 
type StageId = Int 
type StageAttemptId = Int 
type PoolName = String 
type ExecutorId = String 
// Jobs: 
val activeJobs = new HashMap[JobId, JobUIData] 
val completedJobs = ListBuffer[JobUIData] () 
val failedJobs = ListBuffer[JobUIData] () 
val jobIdToData = new HashMap[JobId, JobUIData] 
// Stages: 
val activeStages = new HashMap[StageId, StageInfo] 
val completedStages = ListBuffer[StageInfo] () 
val skippedStages = ListBuffer[StageInfo] () 
val failedStages = ListBuffer[StageInfo] () 
val stageIdToData = new HashMap[(StageId, StageAttemptId), StageUIData] 
val stageIdToInfo = new HashMap[StageId, StageInfo] 
val stageIdToActiveJobIds = new HashMap[StageId, HashSet [JobId] ] 
val poolToActiveStages = HashMap[PoolName, HashMap[StageId, StageInfo]] () 


var numCompletedStages = 0 // 总 共 完 成 的 Stage 数 量 
var numFailedStages = 0 // 总 共 失 败 的 Stage 数 量 
// Misc: 


val executorIdToBlockManagerId = HashMap[ExecutorId, BlockManagerId] () 

def blockManagerIds = executorIdToBlockManagerId.values.toSeq 

var schedulingMode: Option[SchedulingMode] = None 

// mmber of non-active jobs and stages (there is no limit for active jobs and stages): 
val retainedStages = conf.getInt ("spark.ui.retainedStages", DEFAULT_RETAINED STAGES) 

val retainedJobs = conf.getInt ("spark.ui.retainedJobs", DEFAULT_RETAINED_JOBS) 





JobProgressListener 实 现 了 onJobStart、onJobEnd、onStageCompleted、onStageSubmitted、onTaskStart、onTaskEnd 等 方法 ， 这 些 方法 正 是 在 listenerBus 的 驱动 下 ， 改 变 JobProgress- 
Listener 中 的 各 种 Job、Stage 相 关 的 数据 。 


3.4.3 ”SparkUI 的 创建 与 初始 化 


SparkUI 的 创建 ， 见 代码 清单 3-18。 





代码 清单 3-18 ”SparkUI 的 声明 





private[spark] val ui: Option[SparkUI] = 
if (conf.getBoolean ("spark.ui.enabled", true)) { 
Some (SparkUI.createLiveUI (this, conf, listenerBus, jobProgressListener, 
env.securityManager, appName) ) 
} else { 
None 


ui.foreach (_.bind()) 





可 以 看 到 如 果 不 需 要 提供 SparkUl 服 务 ， 可 以 将 





代码 清单 3-19 SparkUl 的 创建 


def createLiveUI( 


sc: SparkContext, 

conf: SparkConf, 

listenerBus: SparkListenerBus, 
jobProgressListener: JobProgressListener, 
securityManager: SecurityManager, 
appName: String): SparkUI = { 


create (Some (sc), conf, listenerBus, securityManager, appName, 


jobProgressListener = Some (jobProgressListener) ) 











属性 spark.ui.enabled 修 改 为 false。 其 中 createLiveUl 实 际 是 调用 了 create 方 法 ， 见 代码 清单 3-19。 

















create 方 法 的 实现 参见 代码 清单 3-20。 


代码 清单 3-20 ”creat 方 法 的 实现 


private 


val 


} 

val 
val 
val 
val 


def create ( 

sc: Option [SparkContext], 

conf: SparkConf, 

listenerBus: SparkListenerBus, 

securityManager: SecurityManager, 

appName: String, 

basePath: String = "", 

jobProgressListener: Option[JobProgressListener] = None): SparkUI = { 
_jobProgressListener: JobProgressListener = jobProgressListener.getOrElse { 


val listener = new JobProgressListener (conf) 
listenerBus.addListener (listener) 
listener 


environmentListener = new EnvironmentListener 
storageStatusListener = new StorageStatusListener 


executorsListener = new ExecutorsListener (storageStatusListener) 
storageListener = new StorageListener (storageStatusListener) 


listenerBus.addListener (environmentListener) 
listenerBus.addListener (storageStatusListener) 
listenerBus.addListener (executorsListener) 
listenerBus.addListener (storageListener) 


new SparkUI (sc, conf, securityManager, environmentListener, storageStatusListener, 
executorsListener, _jobProgressListener, storageListener, appName, basePath) 





根据 代码 清单 3-20， 可 以 知道 在 create 方 法 里 除了 JobProgressListener 是 外 部 传 入 | 
的 EnvironmentListener; 用 于 维护 Executor 的 存储 状态 的 StorageStatusListener; | 
BlockManagerUI 的 StorageListener 等 。 最 后 创 

















Page 的 展示 及 布局 ， 参 见 代 码 清单 3-21。 


代码 清单 3-21 SparkUI 的 初始 化 


private[spark] class SparkUI private ( 


val 
val 
val 
val 
val 
val 
val 
val 
var 
val 
extends 


sc: Option[SparkContext], 

conf: SparkConf, 

securityManager: SecurityManager, 
environmentListener: EnvironmentListener, 
storageStatusListener: StorageStatusListener, 
executorsListener: ExecutorsListener, 
jobProgressListener: JobProgressListener, 
storageListener: StorageListener, 

appName: String, 

basePath: String) 


WebUI (securityManager, SparkUI.getUIPort (conf), conf, basePath, 


with Logging { 


val killEnabled = sc.map(_.conf.getBoolean("spark.ui.killEnabled", true) ) .getOrElse (false) 


/** Initialize all components of the server. */ 
def initialize() { 
attachTab (new JobsTab (this) ) 


val 


stagesTab = new StagesTab (this) 


attachTab (stagesTab) 

attachTab (new StorageTab (this) ) 
attachTab (new EnvironmentTab (this) ) 
attachTab (new ExecutorsTab (this) ) 
attachHandler (createStaticHandler (SparkUI.STATIC_RESOURCE_DIR, "/static")) 
attachHandler (createRedirectHandler("/", "/jobs", basePath = basePath) ) 
attachHandler ( 
createRedirectHandler ("/stages/stage/kill", "/stages", stagesTab.handleKillRequest) ) 


initialize () 




















"SparkUI") 











的 之 外 ， 又 增加 了 一 些 SparkListener。 例 如 ， 用 于 对 JVM 参 数 、Spark 属 性 、Java 系 统 属性 、classpath 等 进行 监控 
准备 将 Executor 的 信息 展示 在 ExecutorsTab 的 ExecutorsListener; 用 于 准备 将 Executor 相 关 存 储 信息 展示 在 
SparkUl，Spark UI 服务 默认 是 可 以 被 杀 掉 的 ， 通 过 修改 


























属性 spark.ui.killEnabled 为 false 可 以 保证 不 被 杀 死 。initialize 方 法 会 组 织 前 端 页 面 各 个 Tab 和 














344 Spark UI 的 页 面 布 局 与 展示 

















SparkUl 究 竟 是 如 何 实现 页 面 布局 及 展示 的 ? JobsTab 展 示 所 有 Job 的 进度 、 状 态 信息 ， 这 里 我 们 以 它 为 例 来 说 明 。JobsTab 会 复 用 SparkUI 的 killEnabled、SparkContext、job-ProgressListener, 包 
括 AlJobsPage 和 JobPage 两 个 页 面 ， 见 代码 清单 3-22。 














代码 清单 3-22 ”JobsTab 的 实现 














private[ui] class JobsTab (parent: SparkUI) extends SparkUITab(parent, "jobs") { 


val 
val 
def 
val 


sc = parent.sc 
killEnabled = parent.killEnabled 


isFairScheduler = listener.schedulingMode.exists(_ == SchedulingMode. FAIR) 


listener = parent.jobProgressListener 


attachPage (new AllJobsPage (this) ) 
attachPage (new JobPage (this) ) 




















AlJobsPage 由 render 方 法 泻 染 , 利用 obProgressListener 中 的 统计 监控 数据 生成 激活 、 完 成 、 失 败 等 状态 的 Job 摘 要 信息 ， 并 调用 jobsTable 方 法 生成 表格 等 htm| 元 素 ， 最 终 使 用 UlUtils 的 
headerSparkPage 封 装 好 css、js、header 及 页 面 布局 等 ， 见 代码 清单 3-23。 











代码 清单 3-23 ”AllJobsPage 的 实现 














def render (request: HttpServletRequest): Seq[Node] = { 
listener.synchronized { 


val activeJobs = listener.activeJobs.values.toSeq 

val completedJobs = listener.completedJobs.reverse.toSeq 
val failedJobs = listener.failedJobs.reverse.toSeq 

val now = System.currentTimeMillis 

val activeJobsTable = 


jobsTable (activeJobs.sortBy (_.startTime.getOrElse (-1L) ) .reverse) 


val completedJobsTable = 
jobsTable (completedJobs.sortBy (_.endTime.getOrElse (-1L) ) .reverse) 
val failedJobsTable = Fe 
jobsTable (failedJobs .sortBy (_.endTime.getOrElse (-11L) ) . reverse) 
val summary: NodeSeq = Ri 
<div> 
<ul class="unstyled"> 
{if (startTime.isDefined) { 
// Total duration is not meaningful unless the UI is live 
<li> 
<strong>Total Duration: </strong> 
{UIUtils.formatDuration (now - startTime.get) } 
</li> 


<strong>Scheduling Mode: </strong> 
{listener.schedulingMode.map(_.toString) .getOrElse ("Unknown") } 

</li> z 

<li> 
<a href="#active"><strong>Active Jobs:</strong></a> 
{activeJobs.size} 

</li> 

<li> 
<a href="#completed"><strong>Completed Jobs:</strong></a> 
{completedJobs.size} 

</li> 

<li> 
<a href="#failed"><strong>Failed Jobs:</strong></a> 
{failedJobs.size} 

</li> 

</ul> 
</div> 














jobsTable 用 来 生成 表格 数据 ， 见 代码 清单 3-24。 














代码 清单 3-24 jobsTable 处 理 表格 的 实现 





private def jobsTable (jobs: Seq[JobUIData]): Seq[Node] = { 
val someJobHasJobGroup = jobs.exists (_.jobGroup.isDefined) 
val columns: Seq[Node] = { T 
<th>{if (someJobHasJobGroup) "Job Id (Job Group)" else "Job Id"}</th> 
<th>Description</th> 
<th>Submitted</th> 
<th>Duration</th> 
<th class="sorttable_nosort">Stages: Succeeded/Total</th> 
<th class="sorttable_nosort">Tasks (for all stages): Succeeded/Total</th> 
} 
<table class="table table-bordered table-striped table-condensed sortable"> 
<thead>{columns}</thead> 
<tbody> 
{jobs .map (makeRow) } 
</tbody> 
</table> 





表格 中 每 行 数据 又 是 通过 makeRow 方 法 泻 染 的 ， 参 见 代 码 清单 3-25。 





代码 清单 3-25 ”生成 表格 中 的 行 





def makeRow(job: JobUIData): Seq[Node] = { 
val lastStageInfo = Option (job.stagelds) 
. filter (_.nonEmpty) 
.flatMap { ids => listener.stageIdToInfo.get (ids.max) } 
val lastStageData = lastStageInfo.flatMap { s => 
listener.stageIdToData.get ((s.stageId, s.attemptId) ) 


val isComplete = job.status == JobExecutionStatus.SUCCEEDED 
val lastStageName = lastStageInfo.map(_.name) .getOrElse (" (Unknown Stage Name) ") 
val lastStageDescription = lastStageData.flatMap (_.description) .getOrElse("") 
val duration: Option[Long] = { 
job.startTime.map { start => 
val end = job.endTime.getOrElse (System. currentTimeMillis () ) 
end - start 
} 
} 
val formattedDuration = duration.map(d => UIUtils.formatDuration (d) ) .getOrElse ("Unknown") 
val formattedSubmissionTime = job.startTime.map (UIUtils.formatDate) .getOrElse ("Unknown") 
val detailUrl = 
"$s/jobs/job?id=%s". format (UIUtils.prependBaseUri (parent .basePath), job.jobId) 
<tr> 
<td sorttable_customkey={job.jobId.toString}> 
{job.jobId} {job.jobGroup.map (id => s"(S$id)") .getOrElse("") } 
</td> 
<td> 
<div><em>{lastStageDescription}</em></div> 
<a href={detailUrl}>{lastStageName}</a> 
</td> 
<td sorttable_customkey={job.startTime.getOrElse (-1) .toString}> 
{formattedSubmissionTime} 
</td> 
<td sorttable_customkey={duration.getOrElse (-1) .toString}>{formatted-Duration}</td> 
<td class="stage-progress-cell"> 
{job.completedStageIndices.size}/{job.stageIds.size - job.numSkipped-Stages} 
{if (job.numFailedStages > 0) s"(${job.numFailedStages} failed)" } 
{if (job.numSkippedStages > 0) s"(${job.numSkippedStages} skipped) "} 
</td> 
<td class="progress-cell"> 
{UIUtils.makeProgressBar (started = job.numActiveTasks, completed = job.numCompletedTasks, 
failed = job.numFailedTasks, skipped = job.numSkippedTasks, 
total = job.numTasks - job.numSkippedTasks) } 
</td> 
</tr> 





代码 清单 3-22 中 的 attachPage 方 法 存在 于 JobsTab 的 父 类 WebUlITab 中 ，WebUlITab 维 护 有 ArrayBuffer[WebUlPage] 的 数据 结构 ，AlJobsPage 和 JobPage 将 被 放 入 此 ArrayBuffer 中 ， 参 见 代 码 清 
3-26。 








代码 清单 3-26 ”WebUITab 的 实现 





private[spark] abstract class WebUITab(parent: WebUI, val prefix: String) { 
val pages = ArrayBuffer [WebUIPage] () 
val name = prefix.capitalize 
/** Attach a page to this tab. This prepends the page's prefix with the tab's own prefix. */ 
def attachPage (page: WebUIPage) { 
page.prefix = (prefix + "/" + page.prefix) .stripSuffix("/") 
pages += page 
/** Get a list of header tabs from the parent UI. */ 


def headerTabs: Seq[WebUITab] = parent.getTabs 
def basePath: String = parent.getBasePath 














JobsTab 创 建 之 后 ， 将 被 attachTab 方 法 加 入 SparkUl 的 ArrayBuffer[WebUITab] 中 ， 并 且 通 过 attachPage 方 法 ， 给 每 一 个 page 生 成 org.eclipse.jetty.servlet.ServletContextHandler， 最 后 调用 
attachHandler 方 法 将 ServletContextHandler 绪 定 到 SparkU1， 即 加 入 到 handlers: ArrayBuffer[ServletContextHandler] 和 样 例 类 Serverlnfo 的 rootHandler (ContextHandlerCollection) 中 。SparkUl 
继承 自 WebU1，attachTab 方 法 在 WebUl 中 实现 ， 参 见 代 码 清单 3-27。 











代码 清单 3-27 WebUI 的 实现 


private[spark] abstract class WebUI( securityManager: SecurityManager, port: Int, 
conf: SparkConf, basePath: String = "", name: String = "") extends Logging { 
protected val tabs = ArrayBuffer[WebUITab] () 
protected val handlers = ArrayBuffer[ServletContextHandler] () 
protected var serverInfo: Option[ServerInfo] = None 
protected val localHostName = Utils.localHostName () 
protected val publicHostName = Option (System.getenv ("SPARK PUBLIC DNS")) .getOrE1se (localHostName) 
private val className = Utils.getFormattedClassName (this) 
def getBasePath: String = basePath 
def getTabs: Seq[WebUITab] = tabs.toSeq 
def getHandlers: Seq[ServletContextHandler] = handlers.toSeq 
def getSecurityManager: SecurityManager = securityManager 
/** Attach a tab to this UI, along with all of its attached pages. */ 
def attachTab(tab: WebUITab) { 
tab.pages . foreach (attachPage) 
tabs += tab 


/** Attach a page to this UI. */ 
def attachPage (page: WebUIPage) { 

val pagePath = "/" + page.prefix 

attachHandler (createServletHandler (pagePath, 

(request: HttpServletRequest) => page.render (request), securityManager, basePath) ) 
attachHandler (createServletHandler (pagePath.stripSuffix("/") + "/json", 

(request: HttpServletRequest) => page.renderJson (request), security-Manager, basePath) ) 


/** Attach a handler to this UI. */ 
def attachHandler (handler: ServletContextHandler) { 
handlers += handler 
serverInfo.foreach { info => 
info. rootHandler.addHandler (handler) 
if (!handler.isStarted) { 
handler.start () 

















由 于 代码 清单 3-27 所 在 的 类 中 使 用 mport org.apache.spark.uiJettyUtils. 导入 了 JettyUtils 的 静态 方法 ， 所 以 createServletHandler 方 法 实际 是 JettyUtils 的 静态 方法 createServletHandler。 
createServletHandler 实 际 创 建 了 javax.servlet.http.HttpServlet 的 匿名 内 部 类 实例 ， 此 实例 实际 使 用 (request: HttpServletRequest) =>page.render (request) 函数 参数 来 处 理 请 求 ， 进 而 渲染 页 面 
呈现 给 用 户 。 有 关 createServletHandler 的 实现 及 Jetty 的 相关 信息 ， 请 参阅 附录 C。 















































3.4.5 ”SparkUI 的 启动 


SparkUl 创 建 好 后 ， 需 要 调用 父 类 WebUl 的 bind 方 法 ， 绑 定 服务 和 端口 ，bind 方 法 中 主要 的 代码 实现 如 下 。 








SerVerInfo = Some (startJettyServer("0.0.0.0", port, handlers, conf, name) ) 








JettyUtils 的 静态 方法 startJettyServer 的 实现 请 参阅 附录 C。 最 终 启动 了 Jetty 提 供 的 服务 ， 默 认 端 口 是 4040。 











3.5 ”Hadoop 相 关 配 置 及 Executor 环 境 变 量 


3.5.1 ”Hadoop 相 关 配 置信 息 














默认 情况 下 ，Spark 使 用 HDFS 作 为 分 布 式 文件 系统 ， 所 以 需要 获取 Hadoop 相 关 配 置信 息 的 代码 如 下 。 





val hadoopConfiguration = SparkHadoopUtil.get.newConfiguration (conf) 
获取 的 配置 信息 包括 : 
- 将 Amazon S3 文 件 系 统 的 AccessKeyId 和 SecretAccessKey 加 载 到 Hadoop 的 Configuration; 
- 将 SparkConf 中 所 有 以 spatk.hadoop. 开 头 的 属性 都 复制 到 Hadoop 的 Configuration; 


+ 将 SpatrkConf 的 属性 spatk.buffer.size 复 制 为 Hadoop 的 Configuration 的 配置 io.file.buffer.size。 
Ore 


如 果 指 定 了 SPARK_YARN_MODE 属 性 ， 则 会 使 用 YarnSparkHadoopUtil， 和 否则 默认 为 SpatkHadoobUtil。 


3.5.2 ”Executor 环 境 变量 








对 Executor 的 环境 变量 的 处 理 ， 参 见 代 码 清单 3-28。executorEnvs 包 含 的 环境 变量 将 会 在 7.2.2 节 中 介绍 的 注册 应 用 的 过 程 中 发 送 给 Master，Master 给 Worker 发 送 调 度 后 ，Worker 最 终 使 用 
executorEnvs 提 供 的 信息 启动 Executor。 可 以 通过 配置 spark.executor.memory 指 定 Executor 占 用 的 内 存 大 小 ， 也 可 以 配置 系统 变量 SPARK_EXECUTOR_MEMORY 或 者 SPARK_MEM 对 其 大 小 进行 设置 。 






































代码 清单 3-28 ”Executor 环 境 变量 的 处 理 





private[spark] val executorMemory = conf.getOption("spark.executor.memory") 

.OrElse (Option (System.getenv ("SPARK EXECUTOR MEMORY"))) 
.orElse (Option (System.getenv ("SPARK MEM") ) .map (warnSparkMem) ) 
.map (Utils .memoryStringToMb) 
.getOrElse (512) 

// Environment variables to pass to our executors. 

private[spark] val executorEnvs = HashMap[String, String] () 

for { (envKey, propKey) <- Seq(("SPARK TESTING", "spark. testing") ) 
value <- Option (System. getenv (envKey) ) .OrElse (Option (System.getProperty (propKey)))} { 
executorEnvs (envKey) = value 

} 

Option (System.getenv ("SPARK PREPEND CLASSES")) .foreach { v => 
executorEnvs ("SPARK_PREPEND_CLASSES") = v 


// The Mesos scheduler backend relies on this environment variable to set executor memory. 
executorEnvs ("SPARK_EXECUTOR_MEMORY") = executorMemory + "m" 
executorEnvs ++= conf.getExecutorEnv 
// Set SPARK USER for user who is running SparkContext. 
val sparkUser = Option { 
Option (System. getenv ("SPARK_USER") ) .getOrElse (System. getProperty ("user.name") ) 
}.getOrElse { 
SparkContext .SPARK_UNKNOWN_USER 
} 
executorEnvs ("SPARK USER") = sparkUser 





3.6 ”创建 任务 调度 器 TaskScheduler 


TaskScheduler 也 是 SparkContext 的 重要 组 成 部 分 ， 负 责任 务 的 提交 ， 并 且 请 求 集群 管理 器 对 任务 调度 。TaskScheduler 也 可 以 看 做 任务 调度 的 客户 端 。 创 建 TaskScheduler 的 代码 如 下 。 











private[spark] var (schedulerBackend, taskScheduler) = 
SparkContext.createTaskScheduler (this, master) 





























createTaskScheduler 方 法 会 根据 master 的 配置 匹配 部 署 模式 ， 创 建 TaskSchedulerlmpl， 并 生成 不 同 的 SchedulerBackend。 本 章 为 了 使 读者 更 容易 理解 Spark 的 初始 化 流程 ， 故 以 local 模 式 为 例 ， 其 
余 模 式 将 在 第 7 章 详解 。master 匹 配 local 模 式 的 代码 如 下 。 








master match { 
case "local" => 
val scheduler = new TaskSchedulerImpl (sc, MAX LOCAL TASK FAILURES, isLocal = true) 
val backend = new LocalBackend (scheduler, 1) 7 ~ ~ 
scheduler. initialize (backend) 
(backend, scheduler) 


3.6.1 创建 TaskSchedulerImpl 


TaskSchedulerimpl 的 构造 过 程 如 下 : 








1) 从 sparkConf 中 读 取 配置 信息 ， 包 括 每 个 任务 分 配 的 CPU 数 、 调 度 模式 (调度 模式 有 FAIR 和 FIFO 两 种 ， 默 认为 FIFO， 可 以 修改 属性 spark.scheduler.mode 来 改变 ) F. 

















2) 创建 TaskResultGetter， 它 的 作用 是 通过 线程 池 (Executors.newFixedThreadPool 创 建 的 ， 默 认 4 个 线程 ， 线 程 名 字 以 task-result-getter 开 头 ， 线 程 工厂 默认 是 Executors.default- 
ThreadFactory) 对 Worker 上 的 Executor 发 送 的 Task 的 执行 结果 进行 处 理 。 


TaskSchedulerImpl 的 实现 见 代码 清单 3-29。 


代码 清单 3-29 ”TaskSchedulerImpl 的 实现 


var dagScheduler: DAGScheduler = null 
var backend: SchedulerBackend = null 
val mapOutputTracker = SparkEnv.get.mapOutputTracker 
var schedulableBuilder: SchedulableBuilder = null 
var rootPool: Pool = null 
// default scheduler is FIFO 
private val schedulingModeConf = conf.get ("spark.scheduler.mode", "FIFO") 
val schedulingMode: SchedulingMode = try { 

SchedulingMode .withName (schedulingModeConf .toUpperCase) 
} catch { 

case e: java.util.NoSuchElementException => 

throw new SparkException(s"Unrecognized spark.scheduler.mode: $scheduling-ModeConf£") 


// This is a var so that we can reset it for testing purposes. 
private[spark] var taskResultGetter = new TaskResultGetter(sc.env, this) 





























TaskSschedulerlImpI 的 调度 模式 有 FAIR 和 FIFO 两 种 。 任 务 的 最 终 调 度 实际 都 是 落实 到 接口 SchedulerBackend 的 具体 实现 上 的 。 为 方便 分 析 ， 我 们 先 来 看 看 local 模 式 中 SchedulerBackend 的 实现 
LocalBackend。LocalBackend 依 赖 于 LocalActor 与 ActorSystem 进 行 消息 通信 。LocalBackend 的 实现 参见 代码 清单 3-30。 





代码 清单 3-30 LocalBackend 的 实现 





private[spark] class LocalBackend (scheduler: TaskSchedulerImpl, val totalCores: Int) 
extends SchedulerBackend with ExecutorBackend { 
private val appId = "local-" + System.currentTimeMillis 
var localActor: ActorRef = null 
override def start() { 
localActor = SparkEnv.get.actorSystem.actorOf ( 
Props (new LocalActor (scheduler, this, totalCores)), 
"LocalBackendActor") 
} 
override def stop() { 
localActor ! StopExecutor 
} 
override def reviveOffers() { 
localActor ! ReviveOffers 
} 
override def defaultParallelism() = 
scheduler.conf.getInt ("spark.default.parallelism", totalCores) 
override def killTask(taskId: Long, executorId: String, interruptThread: Boolean) { 
localActor ! KillTask(taskId, interruptThread) 
} 
override def statusUpdate(taskId: Long, state: TaskState, serializedData: ByteBuffer) { 
localActor ! StatusUpdate(taskId, state, serializedData) 
f 


override def applicationId(): String = appId 


3.6.2 TaskSchedulerImpl 的 初始 化 














创建 完 TaskSchedulerlImpl 和 LocalBackend 后 ， 对 TaskSchedulerlImpl 调 用 方法 initialize 进 行 初始 化 。 以 默认 的 FIFO 调 度 为 例 ，TaskSchedulerlImpl 的 初始 化 过 程 如 下 : 

















1) 使 TaskschedulerlImpl 持 有 LocalBackend 的 引用 。 








2) 创建 Pool，Pool 中 缓存 了 调度 队列 、 调 度 算 法 及 TasksetManager 集 合 等 信息 。 








3) 创建 FIFOSchedulableBuilder，FIFOSchedulableBuilder 用 来 操作 Pool 中 的 调度 队列 。 











initialize 方 法 的 实现 见 代 码 清单 3-31。 





代码 清单 3-31 TaskschedulerlImpI 的 初始 化 





def initialize (backend: SchedulerBackend) { 
this.backend = backend 
rootPool = new Pool("", schedulingMode, 0, 0) 
schedulableBuilder = { 
schedulingMode match { 
case SchedulingMode.FIFO => 
new FIFOSchedulableBuilder (rootPool) 
case SchedulingMode.FAIR => 
new FairSchedulableBuilder (rootPool, conf) 


} 
} 
schedulableBuilder.buildPools () 





3.7 ”创建 和 启动 DAGScheduler 


DAGScheduler 主 要 用 于 在 任务 正式 交 给 TaskSchedulerlImpl 提 交 之 前 做 一 些 准备 工作 ， 包 括 : 创建 Job， 将 DAG 中 的 RDD 划 分 到 不 同 的 Stage， 提 交 Stage， 等 等 。 创 建 DAG-Scheduler 的 代码 如 下 。 











@volatile private[spark] var dagScheduler: DAGScheduler = _ 
dagScheduler = new DAGScheduler (this) 





DAGScheduler 的 数据 结构 主要 维护 jobld 和 stageld 的 关系 、Stage、ActiveJob， 以 及 缓存 的 RDD 的 partitions 的 位 置信 息 ， 见 代码 清单 3-32。 





代码 清单 3-32 ”DAGScheduler 维 护 的 数据 结构 





private[scheduler] val nextJobId = new AtomicInteger (0) 
private[scheduler] def numTotalJobs: Int = nextJobId.get () 
private val nextStageId = new AtomicInteger (0) 
private[scheduler] val jobIdToStageIds = new HashMap[Int, HashSet [Int]] 
private[scheduler] val stageIdToStage = new HashMap[Int, Stage] 
private[scheduler] val shuffleToMapStage = new HashMap[Int, Stage] 
private[scheduler] val jobIdToActiveJob = new HashMap[Int, ActiveJob] 
// Stages we need to run whose parents aren't done 
private[scheduler] val waitingStages = new HashSet [Stage] 
// Stages we are running right now 
private[scheduler] val runningStages = new HashSet [Stage] 
// Stages that must be resubmitted due to fetch failures 
private[scheduler] val failedStages = new HashSet [Stage] 
private[scheduler] val activeJobs = new HashSet [ActiveJob] 
// Contains the locations that each RDD's partitions are cached on 
private val cacheLocs = new HashMap[Int, Array[Seq[TaskLocation] ] ] 
private val failedEpoch = new HashMap[String, Long] 
private val dagSchedulerActorSupervisor = 
env.actorSystem.actorOf (Props (new DAGSchedulerActorSupervisor (this) )) 
private val closureSerializer = SparkEnv.get.closureSerializer.newInstance () 





在 构造 DAGScheduler 的 时 候 会 调用 initializeEventProcessActor 方 法 创建 DAGScheduler-EventProcessActor， 见 代码 清单 3-33。 


代码 清单 3-33 ”DAGSchedulerEventProcessActor 的 初始 化 





private[scheduler] var eventProcessActor: ActorRef = 
private def initializeEventProcessActor() { >. 
// blocking the thread until supervisor is started, which ensures eventProcess-Actor is 
// not null before any job is submitted 
implicit val timeout = Timeout (30 seconds) 
val initEventActorReply = 
dagSchedulerActorSupervisor ? Props (new DAGSchedulerEventProcessActor (this) ) 
eventProcessActor = Await.result (initEventActorReply, timeout.duration) . 
asInstanceOf [ActorRef] 


initializeEventProcessActor () 





这 里 的 DAGSchedulerActorSupervisor 主 要 作为 DAGSchedulerEventProcessActor 的 监管 者 ， 负 责 生 成 DAGSchedulerEventProcessActor。 从 代码 清单 3-34 可 以 看 出 ，DAGScheduler- 
DAGSchedulerEventProcessActor 采 用 了 Akka 的 一 对 一 监管 策略 。DAG-SchedulerActorSupervisor 一 旦 生成 DAGSchedulerEventProcessActor， 并 注册 到 




















ActorSupervisorx 
ActorSystem，ActorSystem 就 会 调用 DAGSchedulerEventProcessActor 的 preStart，taskScheduler 于 是 就 持 有 了 dagScheduler， 见 代码 清单 3-35。 从 代码 清单 3-35 我 们 还 看 到 DAG- 
SchedulerEventProcessActor 所 能 处 理 的 消息 类 型 ， 比 如 JobSubmitted、BeginEvent、CompletionEvent 等 。DAGScheduler-EventProcessActor 接 受 这 些 消息 后 会 有 不 同 的 处 理 动作 。 在 本 章 ， 读 者 只 


需要 理解 到 这 里 即 可 ， 后 面 章节 用 到 时 会 详细 分 析 。 



































代码 清单 3-34 DAGSchedulerActorSupervisor 的 监管 策略 





private[scheduler] class DAGSchedulerActorSupervisor (dagScheduler: DAGScheduler) 
extends Actor with Logging { 
override val supervisorStrategy = 
OneForOneStrategy() { 
case x: Exception => 
logError ("eventProcesserActor failed; shutting down SparkContext", x) 
try { 
{ dagScheduler.doCancelAllJobs () 


} catch { 
case t: Throwable => logError("DAGScheduler failed to cancel all jobs.", t) 


} 
dagScheduler.sc.stop () 
Stop 


def receive = { 


case p: Props => sender ! context.actorOf (p) 
case _ => logWarning("received unknown message in DAGSchedulerActorSupervisor") 


代码 清单 3-35 ”DAGSchedulerEventProcessActor 的 实现 





private[scheduler] class DAGSchedulerEventProcessActor (dagScheduler: DAGS-cheduler) 
extends Actor with Logging { 
override def preStart() { 
dagScheduler.taskScheduler.setDAGScheduler (dagScheduler) 


} 

/** 

* The main event loop of the DAG scheduler. 
xy 


def receive = { 


case JobSubmitted(jobId, rdd, func, partitions, allowLocal, callSite, listener, properties) 
dagScheduler.handleJobSubmitted (jobId, rdd, func, partitions, allowLocal, callSite, 
listener, properties) 
case StageCancelled(stageId) => 
dagScheduler .handleStageCancel lation (stageId) 
case JobCancelled(jobId) => 
dagScheduler.handleJobCancellation (jobId) 
case JobGroupCancelled(groupId) => 
dagScheduler .handleJobGroupCancelled (groupId) 
case AllJobsCancelled => 
dagScheduler.doCancelAllJobs () 
case ExecutorAdded(execId, host) => 
dagScheduler.handleExecutorAdded (execId, host) 
case ExecutorLost (execId) => 
dagScheduler.handleExecutorLost (execId, fetchFailed = false) 
case BeginEvent (task, taskInfo) => 
dagScheduler.handleBeginEvent (task, taskInfo) 
case GettingResultEvent (taskInfo) => 
dagScheduler.handleGetTaskResult (taskInfo) 
case completion @ CompletionEvent (task, reason, 
dagScheduler.handleTaskCompletion (completion) 
case TaskSetFailed(taskSet, reason) => 
dagScheduler.handleTaskSetFailed(taskSet, reason) 
case ResubmitFailedStages => 
dagScheduler. resubmitFailedStages () 


1 _, taskInfo, taskMetrics) => 


override def postStop() { 
// Cancel any active jobs in postStop hook 
dagScheduler.cleanUpAfterSchedulerStop () 


3.8 TaskScheduler 的 启动 











3.6 节 介绍 了 任务 调度 器 TaskScheduler 的 创建 ， 要 想 TaskScheduler 发 挥 作 用 ， 必 须要 启动 它 ， 代 码 如 下 。 








taskScheduler.start () 


=> 











TaskSscheduler 在 启动 的 时 候 ， 实 际 调用 了 backend 的 start 方 法 。 

















override def start() { 
backend. start () 
} 





以 LocalBackend 为 例 ， 启 动 LocalBackend 时 向 actorSystem 注 册 了 LocalActor， 见 代码 清单 3-30 所 示 。 


3.8.1 创建 LocalActor 


创建 LocalActor 的 过 程 主要 是 构建 本 地 的 Executor， 见 代码 清单 3-36。 





代码 清单 3-36 ”LocalActor 的 实现 





private[spark] class LocalActor (scheduler: TaskSchedulerImpl, executorBackend: LocalBackend, 
private val totalCores: Int) extends Actor with ActorLogReceive with Logging { 
import context.dispatcher // to use Akka's scheduler.scheduleOnce () 
private var freeCores = totalCores 
private val localExecutorId = SparkContext.DRIVER_IDENTIFIER 
private val localExecutorHostname = "localhost" “7 
val executor = new Executor ( 
localExecutorId, localExecutorHostname, scheduler.conf.getAll, totalCores, isLocal = true) 
override def receiveWithLogging = { 
case ReviveOffers => 
reviveOffers () 
case StatusUpdate(taskId, state, serializedData) => 
scheduler.statusUpdate(taskId, state, serializedData) 
if (TaskState.isFinished(state)) { 
freeCores += scheduler.CPUS_PER_TASK 
reviveOffers () 
} 
case KillTask(taskId, interruptThread) => 
executor.killTask(taskId, interruptThread) 
case StopExecutor => 
executor. stop () 





Executor 的 构建 ， 见 代码 清单 3-37， 主 要 包括 以 下 步骤 。 


1) 创建 并 注册 ExecutorSource。ExecutorSource 是 做 什么 的 呢 ? 笔者 将 在 3.8.2 节 详细 介绍 。 





2) 获取 SparkEnv。 如 果 是 非 local 模 式 ，Worker 上 的 CoarseGrainedExecutorBackend 向 Driver 上 的 CoarseGrainedExecutorBackend 注 册 Executor 时 ， 则 需要 新 建 SparkEnv。 可 以 修改 属性 














spark.executor.port (默认 为 0， 表 示 随 机 生成 ) 来 配置 Executor 中 的 ActorSystem 的 端口 号 。 





3) 创建 并 注册 ExecutorActor。ExecutorActor 负 责 接受 发 送 给 Executor 的 消息 。 








4) urlClassLoader 的 创建 。 为 什么 需要 创建 这 个 ClassLoader? 在 非 local 模 式 中 ，Driver 或 者 Worker 上 都 会 有 多 个 Executor， 每 个 Executor 都 设 


中 的 类 ， 有 效 对 任务 的 类 加 载 环境 进行 隔离 。 




















5) 创建 Executo! 执 行 Task 的 线程 池 。 此 线程 池 几 用 于 执行 任务 。 








6) 启动 Executor 的 心跳 线程 。 此 线程 用 于 向 Driver 发 送 心跳 。 
































身 的 urlClassLoader， 














于 加 载 任务 上 传 的 jar 包 


此 外 ， 还 包括 Akka 发 送 消息 的 帧 大 小 〈10485760 字 节 ) 、 结 果 总 大 小 的 字 节 限制 (1073741824 字 节 ) 、 正 在 运行 的 task 的 列表 、 设 置 serializer 的 默认 ClassLoader 为 创建 的 ClassLoader 等 。 


代码 清单 3-37 ”Executor 的 构建 


val executorSource = new ExecutorSource (this, executorId) 
private val env = { 
if (!isLocal) { 
val port = conf.getInt ("spark.executor.port", 0) 
val _env = SparkEnv.createExecutorEnv ( 
conf, executorId, executorHostname, port, numCores, isLocal, actorSystem) 
SparkEnv.set (_env) 


env.metricsSystem. registerSource (executorSource) 
“env.blockManager. initialize (conf.getAppId) 
“env 
} else { 
SparkEnv.get 
} 
} 
private val executorActor = env.actorSystem.actorOf ( 
Props (new ExecutorActor (executorlId)), "ExecutorActor") 
private val urlClassLoader = createClassLoader () 
private val replClassLoader = addReplClassLoaderIfNeeded (ur1ClassLoader) 
env.serializer.setDefaultClassLoader (urlClassLoader) 
private val akkaFrameSize = AkkaUtils.maxFrameSizeBytes (conf) 
private val maxResultSize = Utils.getMaxResultSize (conf) 
val threadPool = Utils.newDaemonCachedThreadPool ("Executor task launch worker") 
private val runningTasks = new ConcurrentHashMap[Long, TaskRunner] 
startDriverHeartbeater () 





3.8.2 ”ExecutorSource 的 创建 与 注册 














| 量 系统 。 通 过 metricRegistry 的 register 方 法 注册 计量 ， 这 些 计量 信息 包括 threadpool.activeTasks、threadpool.completeTasks、threadpool.currentPoo| size、thread- 


pool.maxPool size, filesystem.hdfs.write_bytes, filesystem.hdfs.read_ops, filesystem .file.write bytes、 filesystem.hdfs.largeRead_ops、filesystem.hdfs.write_ops 等 ，ExecutorSource 的 实现 见 


代码 清单 3-38。Metric 接 口 的 具体 实现 ， 参 考 附录 D。 











s4 


ExecutorSource 用 于 























代码 清单 3-38 ”ExecutorSource 的 实现 





private[spark] class ExecutorSource (val executor: Executor, executorId: String) extends Source { 

private def fileStats(scheme: String) : Option[FileSystem.Statistics] = 
FileSystem.getAllStatistics().filter(s => s.getScheme.equals (scheme) ) .headOption 

private def registerFileSystemStat [T] ( 

scheme: String, name: String, f: FileSystem.Statistics => T, defaultValue: T) = { 
metricRegistry. register (MetricRegistry.name("filesystem", scheme, name), new Gauge[T] { 
override def getValue: T = fileStats (scheme) .map(f).getOrElse (defaultValue) 

H 

} 

override val metricRegistry = new MetricRegistry() 

override val sourceName = "executor" 

metricRegistry. register (MetricRegistry.name("threadpool", "activeTasks"), new Gauge[Int] { 

override def getValue: Int = executor.threadPool.getActiveCount () 

}) 

metricRegistry.register (MetricRegistry.name ("threadpool", "completeTasks"), new Gauge[Long] { 
override def getValue: Long = executor.threadPool.getCompletedTaskCount () 

}) 

metricRegistry.register (MetricRegistry.name ("threadpool", "currentPool_size"), new Gauge[Int] { 
override def getValue: Int = executor .threadPool.getPoolSize () 

H 

metricRegistry.register (MetricRegistry.name ("threadpool", "maxPool size"), new Gauge[Int] { 
override def getValue: Int = executor.threadPool.getMaximumPoolSize () 

H 

// Gauge for file system stats of this executor 

for (scheme <- Array("hdfs", "file")) { 
registerFileSystemStat (scheme, "read_bytes", _.getBytesRead(), OL) 


registerFileSystemStat (scheme, "write bytes", _-getBytesWritten(), OL) 
registerFileSystemStat (scheme, "read ops", _.getReadOps(), 0) 
registerFileSystemStat (scheme, "largeRead ops", _.getLargeReadOps(), 0) 
registerFileSystemStat (scheme, "write_ops", _.getWriteOps(), 0) 























创建 完 ExecutorSource 后 ， 调 用 MetricsSystem 的 registerSource 方 法 将 ExecutorSource 注 册 到 MetricsSystem。registerSource 方 法 使 用 MetricRegistry 的 register 方 法 ， 将 Source 注 册 到 
MetricRegistry， 见 代码 清单 3-39。 关 于 MetricRegistry， 具 体 参 阅 附录 D。 

















代码 清单 3-39 ”MetricsSystem 注 册 Source 的 实现 


def registerSource (source: Source) { 
sources += source 
try { 
val regName = buildRegistryName (source) 
registry.register(regName, source.metricRegistry) 
} catch { 
case e: IllegalArgumentException => logInfo("Metrics already registered", e) 


} 





3.8.3 ”ExecutorActor 的 构建 与 注册 


ExecutorActor 很 简单 ， 当 接收 到 SparkUl 发 来 的 消息 时 ， 将 所 有 线程 的 栈 信息 发 送 回 去 ， 代 码 实现 如 下 。 





override def receiveWithLogging = { 
case TriggerThreadDump => 
sender ! Utils.getThreadDump () 





3.8.4 _ Spark 自身 ClassLoader 的 创建 





获取 要 创建 的 ClassLoader 的 父 加 载 器 currentLoader， 然 后 根据 currentJars 生 成 URL 数 组 ，spark.files.userClassPathFirst 属 性 指定 加 载 类 时 是 否 先 从 用 户 的 classpath 下 加 载 ， 最 后 创建 
ExecutorURLClassLoader 或 者 ChildExecutorURLClassLoader， 见 代码 清单 3-40。 











代码 清单 3-40 ”Spark 自 身 ClassLoader 的 创建 











private def createClassLoader(): MutableURLClassLoader = { 
val currentLoader = Utils.getContextOrSparkClassLoader 
val urls = currentJars.keySet.map { uri => 
new File(uri.split("/") .last) .toURI.toURL 
}.toArray 
val userClassPathFirst = conf.getBoolean("spark.files.userClassPathFirst", false) 
userClassPathFirst match { 
case true => new ChildExecutorURLClassLoader (urls, currentLoader) 
case false => new ExecutorURLClassLoader (urls, currentLoader) 








Utils.getContextOrSparkClassLoader 的 实现 见 附录 A。ExecutorURLClassLoader 或 者 Child-ExecutorURLClassLoader 实 际 上 都 继承 了 URLClassLoader， 见 代码 清单 3-41。 


代码 清单 3-41 ChildExecutorURLClassLoader 和 ExecutorLIRLClassLoader 的 实现 





private[spark] class ChildExecutorURLClassLoader (urls: Array[URL], parent: ClassLoader) 
extends MutableURLClassLoader { 
private object userClassLoader extends URLClassLoader (urls, null) { 
override def addURL(url: URL) { 
super .addURL (url) 


override def findClass(name: String): Class[_] = { 
super. findClass (name) 
} 
} 
private val parentClassLoader = new ParentClassLoader (parent) 
override def findClass (name: String): Class[_] = { 
try { 
userClassLoader.findClass (name) 
} catch { 
case e: ClassNotFoundException => { 
parentClassLoader.loadClass (name) 
} 
} 


def addURL(url: URL) { 
userClassLoader.addURL (url) 
} 
def getURLs() = { 
userClassLoader.getURLs () 
} 
} 
private[spark] class ExecutorURLClassLoader (urls: Array[URL], parent: ClassLoader) 
extends URLClassLoader (urls, parent) with MutableURLClassLoader { 
override def addURL(url: URL) { 
super.addURL (url) 
} 





如 果 需 要 REPL 交 互 ， 还 会 调用 addReplClassLoaderlfNeeded 创 建 replClassLoader， 见 代码 清单 3-42。 





代码 清单 3-42 addReplClassLoaderlfNeeded 的 实现 





private def addReplClassLoaderIfNeeded (parent: ClassLoader): ClassLoader = { 
val classUri = conf.get ("spark.repl.class.uri", null) 
if (classUri != null) { 
logInfo ("Using REPL class URI: " + classUri) 
val userClassPathFirst: java.lang.Boolean = 
conf.getBoolean ("spark.files.userClassPathFirst", false) 
try { 
val klass = Class. forName ("org.apache.spark. rep] .ExecutorClassLoader") 
.asInstanceOf[Class[_ <: ClassLoader] ] 
val constructor = klass.getConstructor (classOf [SparkConf] , ClassOf [String], 
classOf [ClassLoader], classOf [Boolean] ) 
constructor .newInstance (conf, classUri, parent, userClassPathFirst) 
} catch { 
case _: ClassNotFoundException => 
logError ("Could not find org.apache.spark.repl.ExecutorClassLoader on classpath!") 
System. exit (1) 
null 
} 
} else { 
parent 


} 


3.8.5 ”启动 Executor 的 心跳 线程 














Executor 的 心跳 由 startDriverHeartbeater 启 动 ， 见 代码 清单 3-43。Executor 心 跳 线 程 的 间隔 由 属性 spark.executor.heartbeatlnterva 配 置 ， 默 认 是 10000 毫 秒 。 此 外 ， 超 时 时 间 是 30 秒 ， 超 昌 
数 是 3 次 ， 重 试 间隔 是 3000 毫 秒 ， 使 用 actorSystem.actorSelection (url) 方法 查找 到 匹配 的 Actor 引 用 ，url 是 akka.tcp: //sparkDriver@ $driverHost: $driverPort/user/Heartbeat-Receiver， 最 终 创 
建 一 个 运行 过 程 中 ， 每 次 会 休眠 10000~20000 毫 秒 的 线程 。 此 线程 从 runningTasks 获 取 最 新 的 有 关 Task 的 测量 信息 ， 将 其 与 executorld、blockManagerld 封 装 为 Heartbeat 消 息 ， 向 HeartbeatReceiver 
发 送 Heartbeat 消 息 。 
































代码 清单 3-43 ”启动 Executor 的 心跳 线程 


def startDriverHeartbeater() { 
val interval = conf.getInt ("spark.executor.heartbeatInterval", 10000) 
val timeout = AkkaUtils.lookupTimeout (conf) 
val retryAttempts = AkkaUtils.numRetries (conf) 
val retryIntervalMs = AkkaUtils.retryWaitMs (conf) 
val heartbeatReceiverRef = AkkaUtils.makeDriverRef ("HeartbeatReceiver", conf,env.actorSystem) 
val t = new Thread() { 
override def run() { 
// Sleep a random interval so the heartbeats don't end up in sync 
Thread. sleep (interval + (math.random * interval) .asInstanceOf[Int]) 
while (!isStopped) { 
val tasksMetrics = new ArrayBuffer[ (Long, TaskMetrics) ] () 
val curGCTime = gcTime 
for (taskRunner <- runningTasks.values()) { 
if (!taskRunner.attemptedTask.isEmpty) { 
Option (taskRunner.task) .flatMap(_.metrics).foreach { metrics => 
metrics .updateShuffleReadMetrics 
metrics.jvmGCTime = curGCTime - taskRunner.startGCTime 
if (isLocal) { 
val copiedMetrics = Utils.deserialize[TaskMetrics] (Utils.serialize (metrics) ) 
tasksMetrics += ((taskRunner.taskId, copiedMetrics) ) 
} else { 
// It will be copied by serialization 
tasksMetrics += ((taskRunner.taskId, metrics) ) 


} 
} 
val message = Heartbeat (executorId, tasksMetrics.toArray, env.blockManager.blockManagerId) 
try { 
val response = AkkaUtils.askWithReply[HeartbeatResponse] (message, heartbeatReceiverRef, 
retryAttempts, retryIntervalMs, timeout) 
if (response.reregisterBlockManager) { 
logWarning ("Told to re-register on heartbeat") 
env.blockManager.reregister () 
} 
} catch { 
case NonFatal (t) => logWarning("Issue communicating with driver in heartbeater", t) 


Thread. sleep (interval) 


} 
} 
t.setDaemon (true) 
t.setName ("Driver Heartbeater") 
t.start () 




















这 个 心跳 线程 的 作用 是 什么 呢 ? 其 作用 有 两 个 : 


























“ 更 新 正在 处 理 的 任务 的 测量 信息 ; 
+ 通知 BlockManagerMaster， 此 Executor 上 的 BlockManaget 依 然 活着 。 
下 面 对 心 跳 线程 的 实现 详细 分 析 下 ， 读 者 可 以 自行 选择 是 否 需要 阅读 。 


初始 化 TaskSchedulerlmpl 后 会 创建 心跳 接收 器 HeartbeatReceiver。HeartbeatReceiver 接 收 所 有 分 配给 当前 Driver Application 的 Executor 的 心跳 ， 并 将 Task、Task 计 量 信息 、 心 跳 等 交 给 
TaskSchedulerlImpl 和 DAGScheduler 作 进一步 处 理 。 创 建 心 跳 接收 器 的 代码 如 下 。 





private val heartbeatReceiver = env.actorSystem.actorOf ( 
Props (new HeartbeatReceiver (taskScheduler)), "HeartbeatReceiver") 














HeartbeatReceiver 在 收 到 心跳 消息 后 ， 会 调用 TaskScheduler 的 executorHeartbeatReceived 方 法 ， 代 码 如 下 。 

















override def receiveWithLogging = { 
case Heartbeat (executorId, taskMetrics, blockManagerId) => 
val response = HeartbeatResponse ( 
!scheduler.executorHeartbeatReceived(executorId, taskMetrics, blockManagerId) ) 
sender ! response 





executorHeartbeatReceived 的 实现 代码 如 下 。 


val metricsWithStageIds: Array[(Long, Int, Int, TaskMetrics)] = synchronized { 
taskMetrics.flatMap { case (id, metrics) => 
taskIdToTaskSetId.get (id) 
. flatMap (activeTaskSets.get) 
.map (taskSetMgr => (id, taskSetMgr.stageId, taskSetMgr.taskSet.attempt, metrics) ) 
} 


} 
dagScheduler.executorHeartbeatReceived(execId, metricsWithStageIds, blockManagerId) 








这 段 程序 通过 人 遍历 taskMetrics， 依 据 taskldToTaskSsetld 和 activeTaskSets 找 到 TaskSet-Manager。 然 后 将 taskld、TaskSetManager.stageld、TaskSetManagertaskSet.attempt、TaskMetrics 封 
装 到 类 型 为 Array[ (Long, Int, Int, TaskMetrics) ] 的 数组 metricsWithstagelds 中 。 最 后 调用 了 dag-Scheduler 的 executorHeartbeatReceived 方 法 ， 其 实现 如 下 。 


























listenerBus.post (SparkListenerExecutorMetricsUpdate (execId, taskMetrics) ) 
implicit val timeout = Timeout (600 seconds) 
Await.result ( 
blockManagerMaster.driverActor ? BlockManagerHeartbeat (blockManagerId) , 
timeout.duration) .asInstanceOf [Boolean] 























dagSscheduler 将 executorld、metricsWithStagelds 封 装 为 SparkListenerExecutorMetricsUpdate 事 件 ， 并 post 到 listenerBus 中 ， 此 事件 用 于 更 新 Stage 的 各 种 测量 数据 。 最 后 给 
BlockManagerMaster 持 有 的 BlockManagerMasterActor 发 送 BlockManagerHeartbeat 消 息 。BlockManagerMasterActor 在 收 到 消息 后 会 匹配 执行 heartbeatReceived 方 法 (参见 4.3.1 节 ) 。 
heartbeatReceived 最 终 更 新 BlockManagerMaster 对 BlockManger 的 最 后 可 见 时 间 ( 即 更 新 Block-Managerld 对 应 的 BlockManagerlnfo 的 _lastSeenMs， 见 代码 清单 3-44) 。 


代码 清单 3-44 ”BlockManagerMasterActor 的 心跳 处 理 





private def heartbeatReceived (blockManagerId: BlockManagerId) : Boolean = { 
if (!blockManagerInfo.contains (blockManagerId)) { 
blockManagerId.isDriver && !isLocal 
} else { 
blockManagerInfo (blockManagerId) . updateLastSeenMs () 
true 











local 模 式 下 Executor 的 心跳 通信 过 程 ， 可 以 用 


Oza 








3-3 来 表示 。 


[ 





在 非 local 模 式 中 ，Executor 发 送 心跳 的 过 程 是 一 样 的 ， 主 要 的 区 别 是 Executor 进 程 与 Driver 不 在 同一 个 进程 ， 甚 至 不 在 同一 个 节点 上 。 


接 下 来 会 初始 化 块 管理 器 BlockManager， 代 码 如 下 。 
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图 3-3 Executor 的 心跳 通信 过 程 














env.blockManager. initialize (applicationId) 








具体 的 初始 化 过 程 ， 请 参阅 第 4 章 。 


[由 是 通过 调用 Utils.newDaemonCachedThreadPool 创 建 的 ， 有 具体 实现 请 参阅 附录 A。 


3.9 ”启动 测量 系统 MetricsSystem 























MetricsSystem 使 用 codahale 提 供 的 第 三 方 测量 仓库 Metrics， 有 关 Metrics 的 具体 信息 可 以 参考 附录 D。MetricsSystem 中 有 三 个 概念 : 





“ Instance: 指定 了 谁 在 使 用 测量 系统 ; 
- Source: 指定 了 从 哪里 收集 测量 数据 ; 
“ Sink: 指定 了 往 哪里 输出 测量 数据 。 


Spark 按 照 Instance 的 不 同 ， 区 分 为 Master、Worker、Application、Driver 和 Executor。 





Spark 目 前 提供 的 Sink 有 ConsoleSink、CsvSink、JmxSink、MetricsServlet、GraphiteSink 等 。 














Spark 中 使 用 MetricsServlet 作 为 默认 的 Sink。 


MetricsSystem 的 启动 代码 如 下 。 





val metricsSystem = env.metricsSystem 
metricsSystem. start () 


MetricsSystem 的 启动 过 程 包括 以 下 步骤 : 
1) 注册 Sources; 
2) 注册 Sinks; 


3) 给 Sinks 增 加 Jetty 的 ServletContextHandler。 








MetricsSystem 启 动 完 毕 后， 会 遍历 与 Sinks 有 关 的 ServletContextHandler， 并 调用 attach-Handler 将 它们 绑 定 到 Spark UIE. 














metricsSystem.getServletHandlers.foreach (handler => ui.foreach(_.attachHandler 
(handler) ) ) 





3.9.1 注册 Sources 














registerSources 方 法 用 于 注册 Sources， 告 诉 测 量 系统 从 哪里 收集 测量 数据 ， 它 的 实现 见 代 码 清单 3-45。 注 册 Sources 的 过 程 分 为 以 下 步骤 : 











1) 从 metricsConfig 获 取 Driver 的 Properties， 默 认为 创建 MetricsSystem 的 过 程 中 解析 的 {sink.servlet.class=org.apache.spark.metrics.sink.MetricsServlet，sink.servlet.path=/metrics/json)。 




















2) 用 正则 匹配 Driver 的 Properties 中 以 source. 开 头 的 属性 。 然 后 将 属性 中 的 Source 反 射 得 到 的 实例 加 入 ArrayBuffer[Source]。 











3) 将 每 个 source 的 metricRegistry (也 是 MetricSet 的 子 类 型 ) 注册 到 Concurrent-Map<String，Metric> metrics。 这 里 的 registerSource 方 法 已 在 3.8.2 节 讲解 过 。 


代码 清单 3-45 ”MetricsSystem 注 册 Sources 的 实现 





Private def registerSources() { 
val instConfig = metricsConfig.getInstance (instance) 
val sourceConfigs = metricsConfig.subProperties (instConfig, MetricsSystem.SOURCE_REGEX) 
// Register all the sources related to instance 
sourceConfigs.foreach { kv => 
val classPath = kv._2.getProperty ("class") 
try { ~ 
val source = Class. forName(classPath) .newInstance () 
registerSource (source.asInstanceOf [Source] ) 
} catch { 
case e: Exception => logError ("Source class " + classPath + " cannot be instantiated", e) 


} 


3.9.2 注册 Sinks 








registerSinks 方 法 用 于 注册 Sinks， 即 告诉 测量 系统 MetricsSystem 往 哪里 输出 测量 数据 ， 它 的 实现 见 代 码 清单 3-46。 注 册 Sinks 的 步骤 如 下 : 






































1) 从 Driver 的 Properties 中 用 正则 匹配 以 sink. 开 头 的 属性 ， 如 {sink.servlet.class=org.apache.spark.metrics.sink.MetricsServlet，sink.servlet.path=/metrics/json}， 将 其 转换 为 Map (servlet-> 








{class=org.apache.spark.metrics.sink.MetricsServlet, path=/metrics/json}) 。 

















2) 将 子 属性 class 对 应 的 类 metricsServlet 反 射 得 到 MetricsServlet 实 例 。 如 果 属 性 的 key 是 servlet， 将 : 





设置 为 metricsServlet; 如 果 是 Sink， 则 加 入 到 ArrayBuffer[Sink] 中 。 











代码 清单 3-46 ”MetricsSystem 注 册 Sinks 的 实现 


private def registerSinks() { 
val instConfig = metricsConfig.getInstance (instance) 
val sinkConfigs = metricsConfig.subProperties(instConfig, MetricsSystem.SINK_REGEX) 
sinkConfigs.foreach { kv => 
val classPath = kv._2.getProperty ("class") 
if (null != classPath) { 
try { 
val sink = Class. forName (classPath) 
-getConstructor (classOf [Properties], classOf[MetricRegistry], classOf[SecurityManager] ) 
-newInstance(kv._2, registry, securityMgr) 
if (kv._1 = "servlet") { 


metricsServlet = Some (sink.asInstanceOf [MetricsServlet] ) 
} else { 
sinks += sink.asInstanceOf [Sink] 


} 
} catch { 
case e: Exception => logError ("Sink class "+ classPath + " cannot be instantialized",e) 


} 





3.9.3 给 Sinks 增 加 Jetty 的 ServletContextHandler 














为 了 能 够 在 SparkUl (网 页 ) 访问 到 测量 数据 ， 所 以 需要 给 Sinks 增 加 Jetty 的 Servlet-ContextHandler， 这 里 主要 用 到 MetricsSystem 的 getServletHandlers 方 法 实现 如 下 。 











def getServletHandlers = { 


require(running, "Can only call getServletHandlers on a running MetricsSystem") 
metricsServlet.map (_.getHandlers) .getOrElse (Array () ) 














可 以 看 到 调用 了 metricsServlet 的 getHandlers， 其 实现 如 下 。 








def getHandlers = Array[ServletContextHandler] ( 
createServletHandler (servletPath, 
new ServletParams (request => getMetricsSnapshot (request), "text/json"), securityMgr) 





最 终生 成 处 理 /metrics/json 请 求 的 ServletContextHandler， 而 请 求 的 真正 处 理由 get-MetricsSnapshot 方 法 ， 利 用 fastjson 解 析 。 生 成 的 ServletContextHandler 通 过 SparkUl 的 attachHandler 方 
法 ， 也 被 绑 定 到 SparkUl (creatServlethandler 与 attachHandler 方 法 在 3.4.4 节 详细 讲述 过 ) 。 最 终 我 们 可 以 使 用 以 下 这 些 地 址 来 访问 测量 数据 。 





+ http://localhost: 4040/metrics/applications/json。 
+ http://localhost: 4040/metrics/json. 


+ http://localhost: 4040/mettics/master/jsono 


3.10 “创建 和 启动 ExecutorAllocationManager 




















ExecutorAllocationManager 用 于 对 已 分 配 的 Executor 进 行 管理 ， 创 建 和 启动 Executor-AllocationManager 的 代码 如 下 。 





private[spark] val executorAllocationManager: Option[ExecutorAllocationManager] = 
if (conf.getBoolean ("spark.dynamicAllocation.enabled", false)) { 
Some (new ExecutorAllocationManager (this, listenerBus, conf) ) 
} else { 
None 
} 
executorAllocationManager. foreach (_.start ()) 








默认 情况 下 不 会 创建 ExecutorAllocationManager， 可 以 修改 属性 spark.dynamicAllocation.enabled 为 true 来 创建 。ExecutorAllocationManager 可 以 设置 动态 分 配 最 小 Executor 数 量 、 动 态 分 配 最 
大 Executor 数 量 、 每 个 Executor 可 以 运行 的 Task 数 量 等 配置 信息 ， 并 对 配置 信息 进行 校 验 。start 方 法 将 ExecutorAllocationListener 加 入 listenerBus 中 ，ExecutorAllocationListener 通 过 监听 listenerBus 
里 的 事件 ， 动 态 添 加 、 删 除 Executor。 并 且 通 过 Thread 不 断 添加 Executor， 遍 历 Executor， 将 超时 的 Executor 杀 掉 并 移 除 。ExecutorAllocationListener 的 实现 与 其 他 SparkListener 类 似 ， 不 再 乾 述 。 
ExecutorAllocationManager 的 关键 代码 见 代 码 清单 3-47。 





Jigi 





代码 清单 3-47 ”ExecutorAllocationManager 的 关键 代码 





private val intervalMillis: Long = 100 
private var clock: Clock = new RealClock 
private val listener = new ExecutorAllocationListener 
def start(): Unit = { 
listenerBus.addListener (listener) 
startPolling() 
} 
private def startPolling(): Unit = 
val t = new Thread { 


override def run(): Unit = { 
while (true) { 
tey i 
schedule () 
} catch { 
case e: Exception => logError ("Exception in dynamic executor allocation thread!", e) 


$ 
Thread. sleep (intervalMillis) 


} 
} 
t.setName ("spark-dynamic-executor-allocation") 
t.setDaemon (true) 
t.start () 





Oz 


根据 3.4.1 节 的 内 容 ， 我 们 知道 listenerBus 内 置 了 线程 listenerThread， 此 线程 不 断 从 eventQueue 中 拉 出 事件 对 象 ， 调 用 监听 器 的 监听 方法 。 要 启动 此 线程 ， 需 要 调用 listenerBus 的 start 方 法 ， 代 码 如 下 。 





listenerBus.start () 





3.11 ”ContextCleaner 的 创建 与 启动 





















































ContextCleaner 用 于 清理 那些 超出 应 用 范围 的 RDD、ShuffleDependency 和 Broadcast 对 象 。 由 于 配置 属性 spark.cleaner.referenceTracking 默 认 是 true， 所 以 会 构造 并 启动 ContextCleaner， 代 码 
如 下 。 





private[spark] val cleaner: Option[ContextCleaner] = { 
if (conf.getBoolean ("spark.cleaner.referenceTracking", true)) { 
Some (new ContextCleaner (this) ) 
} else { 
None 
} 
} 


cleaner.foreach(_.start ()) 





ContextCleaner 的 组 成 如 下 : 
+ referenceQueue: 缓存 顶级 的 AnyRef 引 用 ; 
+ referenceBuffer: 缓存 AnyRef 的 虚 引 用 ; 
- listeners: 缓存 清理 工作 的 监听 器 数组 ; 


“ cleaningThread: 用 于 具体 清理 工作 的 线程 。 














ContextCleaner 的 工作 原理 和 listenerBus 一 样 ， 也 采用 监听 器 模式 ， 由 线程 来 处 理 ， 此 线程 实际 只 是 调用 keepCleaning 方 法 。keepCleaning 的 实现 见 代 码 清单 3-48。 




















代码 清单 3-48 keep Cleaning 的 实现 





private def keepCleaning(): Unit = Utils.logUncaughtExceptions { 
while (!stopped) { 
try { 
val reference = Option (referenceQueue. remove (ContextCleaner.REF QUEUE POLL TIMEOUT) ) 
-map(_.asInstanceOf [CleanupTaskWeakReference] ) T ~ = 
// Synchronize here to avoid being interrupted on stop() 
synchronized { 
reference.map(_.task).foreach { task => 
logDebug ("Got Cleaning task " + task) 
referenceBuffer -= reference.get 
task match { 
case CleanRDD(rddId) => 
doCleanupRDD(rddId, blocking = blockOnCleanupTasks) 
case CleanShuffle(shuffleId) => 
doCleanupShuffle(shuffleId, blocking = blockOnShuffleCleanupTasks) 
case CleanBroadcast (broadcastId) => 
doCleanupBroadcast (broadcastId, blocking = blockOnCleanupTasks) 
} 
} 


} 
} catch { 
case ie: InterruptedException if stopped => // ignore 
case e: Exception => logError("Error in cleaning thread", e) 





3.12 Spark 环境 更 新 





在 SparkContext 的 初始 化 过 程 中 ， 可 能 对 其 环境 造成 影响 ， 所 以 需要 更 新 环境 ， 代 码 如 下 。 





postEnvironmentUpdate () 
postApplicationStart () 








SparkContext 初 始 化 过 程 中 ， 如 果 设 置 了 spark.jars 属 性 ，sparkJjars 指 定 的 jar 包 将 由 addjar 方 法 加 入 httpFileServer 的 jarDir 变 量 指定 的 路 径 下 。spark.files 指 定 的 文件 将 由 addFile 方 法 加 入 
httpFileServer 的 fileDir 变 量 指定 的 路 径 下 。 见 代码 清单 3-49。 


代码 清单 3-49 ”依赖 文件 处 理 





val jars: Seq[String] = 


conf.getOption ("spark.jars") .map(_.split(",")).map(_.filter(_.size != 0)).toSeq.flatten 
val files: Seq[String] = 
conf.getOption ("spark.files") .map(_.split(",")) .map(_.filter(_.size != 0)) .toSeq.flatten 


// Add each JAR given through the constructor 
if (jars != null) { 
jars. foreach (addJar) 
} 
if (files != null) { 
files.foreach (addFile) 





httpFileServer 的 addFile 和 addJar 方 法 ， 见 代码 清单 3-50。 


代码 清单 3-50 ”HttpFileServer 提 供 对 依赖 文件 的 访问 





def addFile(file: File) : String = { 
addFileToDir(file, fileDir) 
serverUri + "/files/" + file.getName 


def addJar(file: File) : String = { 
addFileToDir (file, jarDir) 
serverUri + "/jars/" + file.getName 


def addFileToDir(file: File, dir: File) : String = { 
if (file.isDirectory) { 
throw new IllegalArgumentException(s"$file cannot be a directory.") 
$ 
Files.copy (file, new File (dir, file.getName) ) 
dir + "/" + file.getName 








postEnvironmentUpdate 的 实现 见 代码 清单 3-51， 其 处 理 步骤 如 下 : 


























1) 通过 调用 SparkEnv 的 方法 environmentDetails 最 终 影响 环境 的 JVM 参 数 、Spark 属 性 、 系 统 属性 、classPath 等 ， 参 见 代 码 清单 3-52。 





2) 生成 事件 SparkListenerEnvironmentUpdate， 并 post 到 listenerBus， 此 事件 被 Environ-mentListener 监 听 ， 最 终 影响 EnvironmentPage 页 面 中 的 输出 内 容 。 





代码 清单 3-51 postEnvironmentUpdate 的 实现 





private def postEnvironmentUpdate() { 
if (taskScheduler != null) { 

val schedulingMode = getSchedulingMode. toString 

val addedJarPaths = addedJars.keys.toSeq 

val addedFilePaths = addedFiles.keys.toSeq 

val environmentDetails = 
SparkEnv.environmentDetails (conf, schedulingMode, addedJarPaths, addedFilePaths) 

val environmentUpdate = SparkListenerEnvironmentUpdate (environmentDetails) 

listenerBus .post (environmentUpdate) 





代码 清单 3-52 ”environmentDetails 的 实现 





val jvmInformation = Seq( 
("Java Version", s"$javaVersion ($javaVendor)"), 
("Java Home", javaHome) , 
("Scala Version", versionString) 


) .sorted 
val schedulerMode = 
if (!conf.contains ("spark.scheduler.mode")) { 
Seq(("spark.scheduler.mode", schedulingMode) ) 
} else { 


Seq[ (String, String) ] () 
} 
val sparkProperties = (conf.getAll ++ schedulerMode) .sorted 
// System properties that are not java classpaths 
val systemProperties = Utils.getSystemProperties.toSeq 


val otherProperties = systemProperties.filter { case (k, _) => 
k != "Java.class.path" && !k.startsWith ("spark.") 
}.sorted 


// Class paths including all added jars and files 
val classPathEntries = javaClassPath 

- Split (File.pathSeparator) 

-filterNot (_.isEmpty) 

-map((_, "System Classpath") ) 
val addedJarsAndFiles = (addedJars ++ addedFiles) .map((_, "Added By User") ) 
val classPaths = (addedJarsAndFiles ++ classPathEntries) .sorted 
Map[String, Seq[ (String, String) ]] ( 

"JVM Information" -> jvmInformation, 

"Spark Properties" -> sparkProperties, 

"System Properties" -> otherProperties, 

"Classpath Entries" -> classPaths) 





postApplicationStart 方 法 很 简单 ， 只 是 向 listenerBus 发 送 了 SparkListenerApplicationStart 事 件 ， 代 码 如 下 。 








listenerBus.post (SparkListenerApplicationStart (appName, Some(applicationId), startTime, sparkUser) ) 





3.13 ”创建 DAGSchedulerSource 和 BlockManagerSource 




















在 创建 DAGSchedulerSource、BlockManagerSource 之 前 首先 调用 taskSscheduler 的 post-StartHook 方 法 ， 其 目的 是 为 了 等 待 backend 就 绪 ， 见 代码 清单 3-53。postStartHook 的 实现 见 代码 清单 3- 
54。 


创建 DAGSchedulerSource 和 BlockManagerSource 的 过 程 类 似 于 ExecutorSource， 只 不 过 DAGSchedulerSource 测 量 的 信息 是 stage.failedStages、stage.runningStages、stage.waiting- 


Stages、stage.allJobs、stage.activeJobs，BlockManagerSource 测 量 的 信息 是 memory.maxMem_MB、memory.remainingMem_MB、memory.memUsed_MB、memory.diskSpace-Used_MB。 


代码 清单 3-53 ”创建 DAGSchedulerSource 和 BlockManagerSource 





taskScheduler.postStartHook () 
private val dagSchedulerSource 
private val blockManagerSource 
private def initDriverMetrics() { 
SparkEnv.get.metricsSystem. registerSource (dagSchedulerSource) 
SparkEnv.get .metricsSystem. registerSource (blockManagerSource) 


new DAGSchedulerSource (this .dagScheduler) 
new BlockManagerSource (SparkEnv.get .blockManager) 


} 


initDriverMetrics () 





代码 清单 3-54 ”postStartHook 的 实现 





override def postStartHook() { 
waitBackendReady () 


private def waitBackendReady(): Unit = { 
if (backend.isReady) { 
return 


} 
while (!backend.isReady) { 
synchronized { 


this.wait (100) 
} 


3.14 ”将 SparkContext 标 记 为 激活 


SparkContext 初 始 化 的 最 后 将 当前 SparkContext 的 状态 从 contextBeingConstructed (正在 构建 中 ) 改 为 activeContext (已 激活 ) ,代码 如 下 。 





SparkContext.setActiveContext (this, allowMultipleContexts) 





setActiveContext 方 法 的 实现 如 下 。 





private[spark] def setActiveContext ( 
sc: SparkContext, 
allowMultipleContexts: Boolean): Unit = { 
SPARK_CONTEXT_CONSTRUCTOR_LOCK.synchronized { 
assertNoOtherContextIsRunning(sc, allowMultipleContexts) 
contextBeingConstructed = None 
activeContext = Some (sc) 





3.15: 4M 





回顾 本 章 ，Scala 与 Akka 的 基于 Actor 的 并 发 编程 模型 给 人 的 印象 深刻 。 











第 4 章 存储 体系 


天 行 健 ， 君 子 以 自强 不 息 ; 地 势 坤 ， 君 子 以 厚 德 载 物 。 


本 章 导读 

















listenerBus 对 于 监听 器 模式 的 经 典 
络 框架 构建 的 Block 传 输 服务 ， 基 于 Jetty 构 建 的 内 嵌 web 服 务 (HTTP 文 件 服务 器 和 SparkUl) ， 基 于 codahale 提 供 的 第 三 方 测量 仓库 创建 的 测量 系统 ，Executor 中 的 心跳 实现 等 内 容 ， 都 值得 借鉴 。 











己 的 产品 开发 中 去 。 此 外 ， 使 








看 来 并 不 复杂 ， 希 望 读者 朋友 能 应 用 到 


























应 上 














Netty 所 提供 的 





«4B» 


从 本 章 开 始 ， 我 们 一 起 来 学 习 Spa 尿 的 核心 知识 ， 掌 握 好 这 些 内 容 是 阅读 全 书 的 关键 。 无 论 是 Spark 的 初始 化 阶段 还 是 任务 提交 、 执 行 阶段 ， 始 终 离 不 开 存 储 体系 。 笔 者 将 所 有 涉及 存储 的 内 容 都 集中 在 本 


章 ， 以 便于 对 存储 体系 有 好 的 抽象 ， 也 便于 读者 对 其 内 容 有 更 宏观 的 认识 。 


Spak 为 了 避免 Hadoop 读 写 磁盘 的 I/O 〇 操作 成 为 性 能 瓶颈 ， 优 先 将 配置 信息 、 
秀 的 计算 能 力 。 




















计算 结果 等 数据 存 入 内 存 ， 这 极 大 地 提升 了 系统 的 执行 效率 。 正 是 因为 这 一 关键 决策 ， 才 让 Spatk 能 在 大 数据 应 用 中 表现 出 优 





I. sg 
4.1 存储 体系 概述 
4.1.1 块 管理 器 BlockManager 的 实现 
块 管理 器 BlockManager 是 Spark 存 储 体系 中 的 核心 组 件 ， 因 此 本 章 内 容 主要 围绕 BlockManager 展 开 。Driver Application 和 Executor 都 会 创建 BlockManager，BlockManager 的 实现 见 代 码 清单 4- 
1。 
代码 清单 4-1 BlockManager 的 实现 
val diskBlockManager = new DiskBlockManager (this, conf) 
private val blockInfo = new TimeStampedHashMap[BlockId, BlockInfo] 
// Actual storage of where blocks are kept 
private var tachyonInitialized = false 
private[spark] val memoryStore = new MemoryStore (this, maxMemory) 
private[spark] val diskStore = new DiskStore(this, diskBlockManager) 
private[spark] lazy val tachyonStore: TachyonStore = { 
val storeDir = conf.get ("spark.tachyonStore.baseDir", "/tmp_spark_tachyon") 
val appFolderName = conf.get ("spark.tachyonStore.folderName") 
val tachyonStorePath = s"$storeDir/SappFolderName/${this.executorId}" 


val 
val 


tachyonMaster = conf.get ("spark.tachyonStore.url", 
tachyonBlockManager 
new TachyonBlockManager (this, tachyonStorePath, tachyonMaster) 
tachyonInitialized = true 

new TachyonStore (this, tachyonBlockManager) 


} 
private[spark] val shuffleClient = if (externalShuffleServiceEnabled) { 


val transConf = SparkTransportConf.fromSparkConf (conf, numUsableCores) 


"tachyon: //localhost:19998") 


new ExternalShuffleClient (transConf, securityManager, securityManager.isAuthenticationEnabled() ) 


} else { 
blockTransferService 
} 
private val slaveActor = actorSystem.actorOf ( 
Props (new BlockManagerSlaveActor (this, mapOutputTracker) ), 
name = "BlockManagerActor" + BlockManager.ID GENERATOR.next) 
private val metadataCleaner new MetadataCleaner ( 


MetadataCleanerType.BLOCK MANAGER, this.dropOldNonBroadcastBlocks, conf) 


private val broadcastCleaner new MetadataCleaner ( 
MetadataCleanerType.BROADCAST_VARS, this.dropOldBroadcastBlocks, conf) 
private lazy val compressionCodec: CompressionCodec 

















上 面 代码 中 声明 的 Blocklnfo: TimeStampedHashMap|[Blockld, BlockInfo], 





- shuffle 客 户 端 ShuffleClient; 

+ BlockManagerMaster (对 存在 于 所 有 Executor 上 的 BlockManager 统 一 管理 ) ; 
“ 磁盘 块 管理 器 DiskBlockManager; 

“ 内 存 存储 MemoryStore; 

- 磁盘 存储 DiskStore; 

+ Tachyon 存 储 TachyonStore; 

+ 非 广播 Block 清 理 器 metadataCleaner 和 广播 Block 清 理 器 broadcastCleaner; 


“ 压缩 算法 实现 CompressionCodec。 





于 Block-Manager 缓 存 Blockld 及 对 应 的 Blocklnfo。 从 代码 清单 4-1 看 到 ，BlockManager3 


CompressionCodec.createCodec (conf) 








BlockManager 要 生效 ， 必 须要 初始 化 ， 它 的 初始 化 方法 见 代码 清单 4-2。BlockManager 的 初始 化 步骤 如 下 : 























1) BlockTransferService 的 初始 化 和 ShuffleClient 的 初始 化 ( 


2) BlockManagerld 和 ShuffleServerld 的 创建 。 当 用 





3) 向 BlockManagerMaster 注 册 BlockManagerld， 具 体 实现 见 4.3.3 节 ( 当 有 外 部 | 


体 参见 4.2 节 ) 。Shuffle-Client 默 认 是 BlockTransferService， 当 有 外 部 的 ShuffleService 时 , 调 


部 的 ShuffleService 时 ， 创 建新 的 BlockManagerld， 否 则 ShuffleServerld 默 认 使 









































当前 BlockManager 的 BlockManagerld。 


的 ShuffleService 时 ， 还 需要 向 BlockManagerMaster 注 册 ShuffleServerld) 。 


要 由 以 下 部 分 组 成 : 


外 部 ShuffleService 的 初始 化 方法 。 


代码 清单 4-2 ”BlockManager 的 初始 化 





def initialize(appId: String): Unit = { 
blockTransferService. init (this) 
shuffleClient. init (appId) 
blockManagerId = BlockManagerId( 
executorId, blockTransferService.hostName, blockTransferService.port) 
shuffleServerId = if (externalShuffleServiceEnabled) { 
BlockManagerId(executorId, blockTransferService.hostName, externalShuffleServicePort) 
} else { 
blockManagerId 
} 
master. registerBlockManager (blockManagerId, maxMemory, slaveActor) 
// Register Executors' configuration with the local shuffle service, if one should exist. 
if (externalShuffleServiceEnabled && !blockManagerId.isDriver) { 
registerWithExternalShuffleServer () 
} 





4.1.2 Spark 存储 体 系 架构 


在 详细 介绍 存储 体系 之 前 ， 我 们 先 用 图 4-1 说 明 Spark 存 储 体系 的 架构 。 


这 里 对 图 4-1 中 的 调用 关系 做 个 说 明 : 





“ 记号 中 表示 Executor 的 BlockManager 与 Driver 的 BlockManaget 进 行 消息 通信 ， 例 如 ， 注 册 BlockManager、 更 新 Block 信 息 、 获 取 Block 所 在 的 BlockManager、 删 除 Executor 等 ; 
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图 4-1 Spark 存储 体系 架构 


:记号 四 表示 对 BlockManaget 的 读 操 作 (例如 get、doGetLocdl 以 及 BlockManager 内 部 进行 的 MemoryStore、DiskStore、TachyonStore 的 getBytes、getValues 等 操作 ) 和 写 操作 (例如 doPut、putSingle、putBytes 
以 及 BlockManaget 内 部 进行 的 MemoryStore、DiskStore、TachyonStore 的 putBytes、putArray、putIterator 等 操作 ) ; 


: 记号 国 表示 当 MemoryStore 的 内 存 不 足 时 ， 写 入 DiskStore， 而 DiskStore 实 际 依赖 于 DiskBlockManager; 

: 记号 四 表示 通过 访问 远 端 节点 的 EExecutor 的 BlockManager 中 的 TransportServer 提 供 的 RPC 服 务 下 载 或 者 上 传 Block; 

“ 记号 回 表 示 远 端 节点 的 Executor 的 BlockManager 访 问 本 地 Executor 的 BlockManager 中 的 TransportServer 提 供 的 RPC 服 务 下载 或 者 上 传 Block; 

: 记号 加 表示 当 存 储 体 系 选择 Tachyon 作 为 存储 时 ， 对 于 BlockManager 的 读 写 操作 实际 调用 了 TachyonStore 的 putBytes、putArray、putlterator、getBytes、getValues 等 。 


Spark 目 前 支持 HDFS、Amazon S3 两 种 主流 分 布 式 存储 系统 ， 还 使 用 也 诞生 于 UCBerkeley 的 AMP 实 验 室 的 Tachyon 这 种 高 效 的 分 布 式 文件 系统 作为 缓存 。 





Spark 定 义 了 抽象 类 BlockStore， 用 于 制定 所 有 存储 类 型 的 规范 。 目 前 BlockStore 的 具体 实现 包括 MemoryStore、DiskStore 和 TachyonStore。BlockStore 的 继承 体系 如 图 4-2 所 示 。 





BlockStore 


+ putBytes():PutResult 

+ putlterator():PutResult 

+ putArray():PutResult 

+ getSize():Long 

+ getBytes():Option| ByteBuffer] 

+ getValues():Option[Iterator{ Any]] 
+ remove():Boolean 

+ contains():Boolean 

+ clear():void 






TachyonStore DiskStore 











图 4-2 ”BlockStore 继 承 体系 








4.2 shuffle 服 务 与 客户 端 





读者 可 能 奇怪 : 为 什么 需要 把 由 Netty 实 现 的 网 络 服务 组 件 也 放 到 存储 体系 里 面 y 这 是 由 于 Spark 是 分 布 式 部 署 的 ， 每 个 Task 最 终 都 运行 在 不 同 的 机 器 节点 上 。map 任 务 的 输出 结果 直接 存储 到 map 任 
务 所 在 机 器 的 存储 体系 中 ，reduce 任 务 极 有 可 能 不 在 同一 机 器 上 运行 ， 所 以 需要 远程 下 载 map 任 务 的 中 间 输 出 。 因 此 将 ShuffleClient 放 到 存储 体系 是 最 合适 的 。 




















ShuffleClient 并 不 像 它 的 名 字 一 样 ， 是 shuffle 的 客户 端 ， 它 不 光 是 将 shuffle 文 件 上 传 到 其 他 Executor 或 者 下 载 到 本 地 的 客户 端 ， 也 提供 了 可 以 被 其 他 Executor 访 问 的 shuffle 服 务 。 读 到 这 里 ， 熟 悉 
Hadoop YARN 的 读者 可 能 已 经 发 现 Spark 与 Hadoop 一 样 ， 都 采用 Netty 作 为 shuffle server。 从 代码 清单 4-1 可 知 ， 当 有 外 部 的 ShuffleClient 时 ， 新 建 ExternalShuffleClient， 否 则 默认 为 
BlockTransferService。BlockTransferService 只 有 在 其 init 方 法 被 调用 ， 即 被 初始 化 后 才 提供 服务 。 以 默认 的 NettyBlockTransferService 的 init 方 法 为 例 ， 见 代码 清单 4-3。NettyBlockTransferService 的 
初始 化 步骤 如 下 : 



































1) 创建 RpcServer; 
2) 构造 TransportContext; 


3) 创建 RPC 客 户 端 工厂 TransportClientFactory; 





4) 创建 Netty 服 务 器 TransportServer， 可 以 修改 属性 spark.blockManager.port (默认 为 0， 表 示 随 机 选择 ) 改变 TransportServer 的 端口 。 





代码 清单 4-3 ”NettyBlockTransferService 的 初始 化 





override def init (blockDataManager: BlockDataManager): Unit = { 
val (rpcHandler: RpcHandler, bootstrap: Option[TransportClientBootstrap]) = { 
val nettyRpcHandler = new NettyBlockRpcServer (serializer, blockDataManager) 
if (!authEnabled) { 
(nettyRpcHandler, None) 
} else { 
(new SaslRpcHandler (nettyRpcHandler, securityManager) , 
Some (new SaslClientBootstrap(transportConf, conf.getAppId, securityManager) ) ) 
} 


transportContext = new TransportContext (transportConf, rpcHandler) 

clientFactory = transportContext.createClientFactory (bootstrap.toList) 

server = transportContext.createServer (conf.getInt ("spark.blockManager.port", 0)) 
appId = conf.getAppId 

logInfo ("Server created on " + server.getPort) 





接 下 来 我 们 逐步 讲解 Block 的 RPC 服 务 ， 构 造 TransportContext， 创 建 RPC 客 户 端 工厂 TransportClientFactory， 创 建 Netty 服 务 器 TransportServer 的 实现 。 此 外 还 会 介绍 reduce 任 务 是 如 何 拉 取 map 
任务 中 间 结 果 的 ( 即 shuffle 过 程 的 数据 传输 ) 。 





4.2.1 ”Block 的 RPC 服 务 


当 map 任 务 与 reduce 任 务 处 于 不 同 节 点 时 ，reduce 任 务 需 要 从 远 端 节点 下 载 map 任 务 的 中 间 输 出 ， 因 此 NettyBlockRpcServer 提 供 打开 ， 即 下 载 Block 文 件 的 功能 ; 一 些 情况 下 ， 为 了 容错 ， 需 要 将 
Block 的 数据 备份 到 其 他 节点 上 ， 所 以 NettyBlockRpcServer 还 提供 了 上 传 Block 文 件 的 RPC 服 务 ，NettyBlockRpcServer 的 实现 见 代码 清单 4-4。 











代码 清单 4-4 ”NettyBlockRpcServer 的 实现 





class NettyBlockRpcServer ( 
serializer: Serializer, 
blockManager: BlockDataManager) 
extends RpcHandler with Logging { 
private val streamManager = new OneForOneStreamManager () 
override def receive ( 


client: TransportClient, 
messageBytes: Array[Byte], 
responseContext: RpcResponseCallback): Unit = { 
val message = BlockTransferMessage .Decoder . fromByteArray (messageBytes) 
logTrace(s"Received request: $message") 
message match { 
case openBlocks: OpenBlocks => 
val blocks: Seq[ManagedBuffer] = 
openBlocks.blockIds.map (BlockId. apply) .map (blockManager .getBlockData) 
val streamId = streamManager.registerStream(blocks.iterator) 
logTrace(s"Registered streamId $streamId with ${blocks.size} buffers") 
responseContext.onSuccess (new StreamHandle(streamId, blocks.size) .toByteArray) 
case uploadBlock: UploadBlock => 
val level: StorageLevel = 
serializer.newInstance() .deserialize (ByteBuffer.wrap (uploadBlock.metadata) ) 
val data = new NioManagedBuffer (ByteBuffer.wrap (uploadBlock.blockData) ) 
blockManager.putBlockData (BlockId(uploadBlock.blockId), data, level) 
responseContext.onSuccess (new Array [Byte] (0) ) 
} 
} 
override def getStreamManager(): StreamManager = streamManager 





4.2.2 ”构造 传输 上 下 文 TransportContext 
TransportContext 用 于 维护 传输 上 下 文 ， 它 的 构造 器 如 下 。 


public TransportContext (TransportConf conf, RpcHandler rpcHandler) { 
this.conf = conf; 
this.rpcHandler = rpcHandler; 
this.encoder = new MessageEncoder () ; 
this.decoder = new MessageDecoder (); 





TransportContext 既 可 以 创建 Netty 服 务 ， 也 可 以 创建 Netty 访 问 客户 端 。TransportContext 的 组 成 如 下 : 





TransportConf: 主要 控制 Netty 框 架 提 供 的 shuffle 的 I/O 交 互 的 客户 端 和 服务 端 线程 数量 ; 
* RpcHandler: 负责 shuffle 的 I/O 服 务 端 在 接收 到 客户 端的 RPC 请 求 后 ， 提 供 打 开 Block 或 者 上 传 Block 的 RPC 处 理 ， 此 处 即 为 NettyBlockRpcSetrver; 
+ decoder: 在 shuffle 的 I/O 〇 服务 端 对 客户 端 传 来 的 ByteBuf 进 行 解析 ， 防 止 丢 包 和 解析 错误 ; 


- encoder: 在 shuffle 的 IO 客户 端 对 消息 内 容 进 行 编码 ， 防 止 服务 端 丢 包 和 解析 错误 。 
Ona 


为 什么 需要 MessageEncoder 和 MessageDecoder? 因为 在 基于 流 的 传输 里 (比如 TCP/IP) ， 接 收 到 的 数据 首先 会 被 存储 到 一 个 socket 接 收 缓冲 里 。 不 幸 的 是 ， 基 于 流 的 传输 并 不 是 一 个 数据 包 队列 ， 而 是 一 
个 字 节 队 列 。 即 使 发 送 了 2 个 独立 的 数据 包 ， 操 作 系统 也 不 会 作为 2 个 消息 处 理 ， 而 仅仅 认为 是 一 连 串 的 字 节 。 因 此 不 能 保证 远程 写 入 的 数据 会 被 准确 地 读 取 。 举 个 例子 ， 假 设 操作 系统 的 TCP/TP 协 议 栈 已 经 
接收 了 3 个 数据 包 : ABC、DEF、GHI。 由 于 基于 流传 输 的 协议 的 这 种 统一 的 性 质 ， 在 应 用 程序 读 取 数 据 时 很 可 能 性 被 分 成 下 面 的 片段 : AB、CDEFG、H、I。 因 此 ， 接 收 方 不 管 是 客户 端 还 是 服务 端 ， 都 应 
该 把 接收 到 的 数据 整理 成 一 个 或 者 多 个 更 有 意义 并 且 让 程序 的 逻辑 更 好 理解 的 数据 。 


4.2.3 RPC 客户 端 工 厂 TransportClientFactory 











TransportClientFactory 是 创建 Netty 客 户 端 TransportClient 的 工厂 类 ，TransportClient 用 于 向 Netty 服 务 端 发 送 RPC 请 求 。TransportContext 的 createClientFactory 方 法 用 于 创建 
TransportClientFactory， 实 现 如 下 。 

















public TransportClientFactory createClientFactory (List<TransportClientBootstrap> bootstraps) { 
return new TransportClientFactory (this, bootstraps); 
} 


从 代码 清单 4-5 可 以 看 到 ，TransportClientFactory 由 以 下 部 分 组 成 : 





“ clientBootstraps: 用 于 缓存 客户 端 列 表 ; 

“ connectionPool: 用 于 缓存 客户 端 连接 ; 

+ numConnectionsPerPeer: 节点 之 间 取 数据 的 连接 数 ， 可 以 使 用 属性 spark.shuffle.io.numConnectionsPerPeer 来 配置 ， 默 认为 1; 
+ socketChannelClass: 客户 端 channel 被 创建 时 使 用 的 类 ， 可 以 使 用 属性 spark.shuffle.io.mode 来 配置 ， 默 认为 NioSocketChannel; 
“ workerGroup: 根据 Netty 的 规范 ， 客 户 端 只 有 wo 水 组 ， 所 以 此 处 创建 workerGroup， 实 际 是 NioEventLoopGroup; 


+ pooledAllocator: 汇集 ByteBuf 但 对 本 地 线程 缓存 禁用 的 分 配器 。 


























TransportClientFactory 里 大 量 使 用 了 NettyUtils， 关 于 NettyUtils 的 具体 实现 ， 请 看 附录 G。 











代码 清单 4-5 TransportClientFactory 的 实现 





public TransportClientFactory ( 
TransportContext context, 
List<TransportClientBootstrap> clientBootstraps) { 
this.context = Preconditions .checkNotNull (context) ; 
this.conf = context.getConf(); 
this.clientBootstraps = Lists.newArrayList (Preconditions .checkNotNull (clientBootstraps) ) ; 
this.connectionPool = new ConcurrentHashMap<SocketAddress, ClientPool>(); 
this.numConnectionsPerPeer = conf.numConnectionsPerPeer () ; 
this.rand = new Random(); 
TOMode ioMode = I0Mode.valueOf (conf .ioMode () ) 7 
this.socketChannelClass = NettyUtils.getClientChannelClass (ioMode) ; 
this.workerGroup = NettyUtils.createEventLoop(ioMode, conf.clientThreads(), "shuffle-client"); 
this.pooledAllocator = NettyUtils.createPooledByteBufAllocator ( 
conf.preferDirectBufs(), false /* allowCache */, conf.clientThreads ()); 





Giz 


NIO 是 指 Java 中 New IO 的 简称 ， 其 特点 包括 : 为 所 有 的 原始 类 型 提供 (Buffer) 缓存 支持 ; 字符 集 编码 解码 解决 方案 ; 提供 一 个 新 的 原始 I/O 抽 和 象 Channel， 支 持 锁 和 内 存 映 射 文件 的 文件 访问 接口 ; 提供 
多 路 非 阻塞 式 (non-bloking) 的 高 伸缩 性 网 络 I/O。 其 具体 使 用 属于 Java 语 言 的 范畴 ， 本 文 不 过 多 介绍 。 


4.2.4 Netty 服 务 器 TransportServer 








Transportserver 提 供 了 Netty 实 现 的 服务 器 端 ， 用 于 提供 RPC 服 务 (比如 上 传 、 下 载 等 ) 。 创 建 Transportserver 的 代码 如 下 。 

















public TransportServer createServer (int port) { 
return new TransportServer (this, port); 


} 





TransportServer 的 构造 器 实现 如 下 。 





public TransportServer (TransportContext context, int portToBind) { 
this.context = context; 
this.conf = context.getConf () 7 
init (portToBind) ; 




















上 面 代 码 中 的 init 方 法 用 于 对 TransportServer 初 始 化 ， 通 过 使 用 Netty 框 架 的 Event-LoopGroup、ServerBootstrap 等 API 创 建 shuffle 的 MO 交互 的 服务 端 ，init 的 主要 代码 见 代 码 清单 4-6。 























代码 清单 4-6 init 的 主要 代码 





private void init (int portToBind) { 
TOMode ioMode = I0Mode.valueOf (conf .ioMode () ) 7 
EventLoopGroup bossGroup = 
NettyUtils.createEventLoop(ioMode, conf.serverThreads(), "shuffle-server") ; 
EventLoopGroup workerGroup = bossGroup; 
PooledByteBufAllocator allocator = NettyUtils.createPooledByteBufAllocator ( 
conf.preferDirectBufs(), true /* allowCache */, conf.serverThreads () ); 
bootstrap = new ServerBootstrap () 
«group (bossGroup, workerGroup) 
.channel (Nett yUtils.getServerChannelClass (ioMode) ) 
.option (ChannelOption.ALLOCATOR, allocator) 
.childOption (ChannelOption.ALLOCATOR, allocator); 
bootstrap.childHandler (new ChannelInitializer<SocketChannel>() { 
@Override 
protected void initChannel (SocketChannel ch) throws Exception { 
context .initializePipeline (ch) ; 
} 
he 
channelFuture = bootstrap.bind(new InetSocketAddress (portToBind) ) ; 
channelFuture.syncUninterruptibly (); 
port = ((InetSocketAddress) channelFuture.channel () .localAddress () ) .getPort (); 














ServerBootstrap 的 childHandler 方 法 调用 了 TransportContext 的 initializePipeline。initia-lizePipeline 中 创建 了 TransportChannelHandler， 并 将 它 绑 定 到 SocketChannel 的 pipeline 的 handler 中 ， 
见 代码 清单 4-7。 








代码 清单 4-7 initializePipeline 方 法 的 实现 





public TransportChannelHandler initializePipeline (SocketChannel channel) { 
try { 
TransportChannelHandler channelHandler = createChannelHandler (channel) ; 
channel .pipeline () 
.addLast ("encoder", encoder) 
-addLast ("frameDecoder", NettyUtils.createFrameDecoder () ) 
.addLast ("decoder", decoder) 
.addLast ("handler", channelHandler) ; 
return channelHandler; 
} catch (RuntimeException e) { 
logger.error ("Error while initializing Netty pipeline", e); 
throw e; 


} 


private TransportChannelHandler createChannelHandler (Channel channel) { 
TransportResponseHandler responseHandler = new TransportResponseHandler (channel) ; 
TransportClient client = new TransportClient (channel, responseHandler) ; 
TransportRequestHandler requestHandler = new TransportRequestHandler (channel, client, rpcHandler) ; 
return new TransportChannelHandler (client, responseHandler, requestHandler) ; 





Oza 


本 节 很 多 代码 都 是 通过 使 用 Netty API 来 实现 的 ， 有 兴趣 的 读者 可 以 去 http://netty.io/ 查 阅 API 的 使 用 。 一 些 读者 可 能 注意 到 Spa 涉 在 使 用 Netty 时 ， 都 是 用 Java 作 为 编程 语言 ， 实 际 上 也 可 以 使 用 Scala 作 为 纺 
程 语言 的 。 这 个 问题 ， 笔 者 不 了 解 其 发 生 的 背景 ， 如 果 有 读者 知道 ， 希 望 能 及 时 通知 笔者 。 


4.2.5 ”获取 远程 shuffle 文 件 














NettyBlockTransferService 的 fetchBlocks 方 法 用 于 获取 远程 shuffle 文 件 ， 实 际 是 利用 NettyBlockTransferService 中 创建 的 Netty 服 务 ， 见 代码 清单 4-8。 











代码 清单 4-8 ”获取 远 端 节点 上 的 shuffle 文 件 





override def fetchBlocks ( 
host: String, 
port: Int, 
execId: String, 
blockIds: Array[String], 
listener: BlockFetchingListener): Unit = { 
val blockFetchStarter = new RetryingBlockFetcher.BlockFetchStarter { 
override def createAndStart (blockIds: Array[String], listener: BlockFetchingListener) { 
val client = clientFactory.createClient (host, port) 
new OneForOneBlockFetcher (client, appId, execId, blockIds.toArray, listener) .start () 
} 


val maxRetries = transportConf.maxIORetries () 
if (maxRetries > 0) { 
new RetryingBlockFetcher (transportConf, blockFetchStarter, blockIds, listener) .start () 
} else { 
blockFetchStarter.createAndStart (blockIds, listener) 
f 





4.2.6 上传 shuffle 文 件 


NettyBlockTransferService 的 uploadBlock 方 法 

















上 传 Block 的 步骤 如 下 : 














于 上 传 shuffle 文 件 到 远程 Executor， 实 际 也 是 利用 NettyBlockTransferService 中 创建 的 Netty 服 务 ， 见 代码 清单 4-9。Netty-BlockTransferService 








1) 创建 Netty 服 务 的 客户 端 ， 客 户 端 连接 的 hostname 和 port 正 是 我 们 随机 选择 的 BlockManager 的 hostname 和 port。 
2) 将 Block 的 存储 级 别 StorageLevel 序 列 化 。 


3) 将 Block 的 ByteBuffer 转 化 为 数组 ， 便 于 序列 化 。 


4) 将 appld、execld、blockld、 序 列 化 的 StorageLevel、 转 换 为 数组 的 Block 封 装 为 UploadBlock， 并 将 UploadBlock 序 列 化 为 字 节 数 组 。 














5) 最 终 调用 Netty 客 户 端的 sendRp<c 方 法 将 字 节 数组 上 传 ， 回 调 函 数 RpcResponse-Callback 根 据 RPC 的 结果 更 改 上 传 状 态 。 











代码 清单 4-9 ”上传 Block 到 远 端 节 点 





override def uploadBlock ( 
hostname: String, 
port: Int, 
execId: String, 
blockId: BlockId, 
blockData: ManagedBuffer, 
level: StorageLevel): Future[Unit] = { 
val result = Promise[Unit] () 
val client = clientFactory.createClient (hostname, port) 
// StorageLevel is serialized as bytes using our JavaSerializer. Everything else is encoded 
// using our binary protocol. 
val levelBytes = serializer.newInstance() .serialize (level) .array() 
// Convert or copy nio buffer into array in order to serialize it. 
val nioBuffer = blockData.nioByteBuffer () 
val array = if (nioBuffer.hasArray) { 
nioBuffer.array () 
} else { 
val data = new Array [Byte] (nioBuffer. remaining () ) 
nioBuffer.get (data) 
data 
} 
client.sendRpc (new UploadBlock (appId, execId, blockId.toString, levelBytes, array) .toByteArray, 
new RpcResponseCallback { 
override def onSuccess (response: Array[Byte]): Unit = { 
logTrace (s"Successfully uploaded block $blockId") 
result.success () 
} 
override def onFailure(e: Throwable): Unit = { 
logError(s"Error while uploading block $blockId", e) 
result.failure (e) 
} 
a 


result. future 


4.3 BlockManagerMaster 对 BlockManager 的 管理 














Driver 上 的 BlockManagerMaster 对 存在 于 Executor 上 的 BlockManager 统 一 管理 ， 比 如 Executor 需 要 向 Driver 发 送 注 册 BlockManager、 更 新 Executor 上 Block 的 最 新 信息 、 询 问 所 需要 Block 目 前 所 


在 的 位 置 以 及 当 Executor 运 行 结束 需要 将 此 Executor 移 除 等 。 但 是 Driver 与 Executor 却 位 于 
Executor 也 会 从 ActorSystem 中 获取 BlockManagerMasterActor 的 引 


4.3.1 BlockManagerMasterActor 























不 同 机 器 中 ， 该 怎么 实现 呢 ? Driver 上 的 BlockManagerMaster 会 持 有 BlockManagerMasterActor， 所 有 


， 所 有 Executor 与 Driver 关 于 BlockManager 的 交互 都 依赖 于 它 。 














BlockManagerMasterActor 只 存在 于 Driver 上 。Executor 从 ActorSystem 获 取 BlockManager-MasterActor 的 引用 ， 然 后 给 BlockManagerMasterActor 发 送 消息 ， 实 现 和 Driver 交 互 。 
BlockManagerMasterActor 的 实现 见 代 码 清单 4-10。 











代码 清单 4-10 BlockManagerMasterActor 的 实现 





private val blockManagerInfo = new mutable.HashMap[BlockManagerId, BlockManagerInfo] 
private val blockManagerIdByExecutor = new mutable.HashMap[String, BlockManagerId] 
private val blockLocations = new JHashMap[BlockId, mutable.HashSet [BlockManagerId] ] 
private val akkaTimeout = AkkaUtils.askTimeout (conf) 
val slaveTimeout = conf.getLong("spark.storage.blockManagerSlaveTimeoutMs", 

math.max (conf.getInt ("spark.executor.heartbeatInterval", 10000) * 3, 45000)) 
val checkTimeoutInterval = conf.getLong("spark.storage.blockManagerTimeoutIntervalMs", 60000) 
var timeoutCheckingTask: Cancellable = null 
override def preStart() { 

import context.dispatcher 

timeoutCheckingTask = context.system.scheduler.schedule (0.seconds, 

checkTimeoutInterval.milliseconds, self, ExpireDeadHosts) 
super.preStart () 


override def receiveWithLogging = { 
case RegisterBlockManager (blockManagerId, maxMemSize, slaveActor) => 
register (blockManagerId, maxMemSize, slaveActor) 
sender ! true 
case UpdateBlockInfo ( 
blockManagerId, blockId, storageLevel, deserializedSize, size, tachyonSize) => 
updateBlockInfo (blockManagerId, blockId, storageLevel, deserializedSize, size, tachyonSize) 
case GetLocations (blockId) => 
sender ! getLocations (blockId) 
case GetLocationsMultipleBlockIds (blockIds) => 
sender ! getLocationsMultipleBlockIds (blockIds) 
case GetActorSystemHostPortForExecutor (executorId) => 
sender ! getActorSystemHostPortForExecutor (executorId) 
case GetMemoryStatus => 
sender ! memoryStatus 
case GetStorageStatus => 
sender ! storageStatus 
case GetBlockStatus (blockId, askSlaves) => 
sender ! blockStatus(blockId, askSlaves) 
case GetMatchingBlockIds (filter, askSlaves) => 
sender ! getMatchingBlockIds (filter, askSlaves) 
case RemoveRdd(rddId) => 
sender ! removeRdd (rddId) 
case RemoveShuffle(shuffleId) => 
sender ! removeShuffle (shufflelId) 
case RemoveBroadcast (broadcastId, removeFromDriver) => 
sender ! removeBroadcast (broadcastId, removeFromDriver) 
case RemoveBlock (blockId) => 
removeBlockFromWorkers (blockId) 
sender ! true 


case RemoveExecutor (execId) => 
removeExecutor (execId) 
sender ! true 
case StopBlockManagerMaster => 
sender ! true 
if (timeoutCheckingTask != null) {timeoutCheckingTask.cancel () } 
context .stop (self) 
case ExpireDeadHosts => 
expireDeadHosts () 
case BlockManagerHeartbeat (blockManagerId) => 
sender ! heartbeatReceived (blockManagerId) 
case other => 
logWarning ("Got unknown message: " + other) 








上 面 代码 展示 了 BlockManagerMasterActor 维 护 的 很 多 缓存 数据 结构 : 





“ blockManagerInfo: 缓存 所 有 的 BlockManagetrId 及 其 BlockManaget 的 信息 ; 
“ blockManagerldByExecutor: 缓存 executor[d 与 其 拥有 的 BlockManagerId 之 间 的 映射 关系 ; 


“ blockLocations: 缓存 Block 与 BlockManagerId 的 映射 关系 。 





在 代码 清单 4-10 中 ，receiveWithLogging 作 为 匹配 BlockManagerMasterActor 接 收 到 消息 的 偏 函数 ; 属性 spark.storage.blockManagerSlaveTimeoutMs 和 spark.executor.heartbeatlnterval 共 同 
决定 Slave 节 点 ， 即 BlockManager 的 超时 时 间 ; 属性 spark.storage.blockManagerTimeout-IntervalMs 指 定 检查 BlockManager 超 时 的 时 间 间 隔 。 











43.2 询问 Driver 并 获取 回复 方法 





在 Executor 的 BlockManagerMaster 中 ， 所 有 与 Driver 上 BlockManagerMaster 的 交互 方法 最 终 都 调用 了 askDriverWithReply， 可 见 它 是 一 个 最 基础 的 方法 ， 它 的 代码 如 下 。 


private def askDriverWithReply[T] (message: Any): T = { 
AkkaUtils.askWithReply (message, driverActor, AKKA_RETRY ATTEMPTS, AKKA RETRY INTERVAL MS, 
timeout) 














此 外 ，tell 方 法 作为 askDriverWithReply 的 代理 也 经 常 被 调用 ， 代 码 如 下 。 











Private def tell (message: Any) { 
if (!askDriverWithReply[Boolean] (message)) { 
throw new SparkException ("BlockManagerMasterActor returned false, expected true.") 


} 























askDriverWithReply 调 用 了 AkkaUtils.askWithReply 方 法 。askWithReply 方 法 实际 使 用 Actor-System 向 BlockManagerMasterActor 发 送 任 何 消息 。 发 送 每 条 消息 的 最 大 尝试 次 数 是 3 次 ， 间 隔 为 3000 
毫秒 ， 请 求 超时 时 间 是 30 秒 ， 具 体 实现 见 附 录 G。BlockManagerMasterActor 接 收 到 消息 后 将 由 receiveWithLogging 函 数 匹 配 ， 并 处 理 具体 的 逻辑 。 




















4.3.3 ”向 BlockManagerMaster 注 册 BlockManagerld 





Executor 或 者 Driver 自 身 的 BlockManager 在 初始 化 时 ， 需 要 向 Driver 的 BlockManager 注 册 BlockManager 信 息 ， 代 码 如 下 。 

















def registerBlockManager (blockManagerId: BlockManagerId, maxMemSize: Long, slaveActor: ActorRef) { 
logInfo ("Trying to register BlockManager") 
tell (RegisterBlockManager (blockManagerId, maxMemSize, slaveActor) ) 
logInfo ("Registered BlockManager") 





从 上 面 代 码 看 到 ， 消 息 内 容 包 括 BlockManagerld、 最 大 内 存 、BlockManagerSlaveActor。 消 息 体 带 有 BlockManagerSlaveActor 是 为 了 便于 接受 BlockManagerMasterActor 回 复 的 消息 。 这 些 信息 
被 封装 为 RegisterBlockManager， 并 调用 刚刚 在 4.3.2 节 介绍 的 tell 方 法 。 根 据 之 前 的 分 析 ，RegisterBlockManager 消 息 会 被 BlockManagerMasterActor 匹 配 并 执行 register 方 法 注册 BlockManager， 并 
在 register 方 法 执行 结束 后 向 发 送 者 BlockManagerSlaveActor 发 送 一 个 简单 的 消息 true。 注 册 BlockManager 的 实现 见 代码 清单 4-11。 




















代码 清单 4-11 注册 BlockManager 的 实现 





private def register(id: BlockManagerId, maxMemSize: Long, slaveActor: ActorRef) { 
val time = System.currentTimeMillis () 
if (!blockManagerInfo.contains(id)) { 
blockManagerIdByExecutor.get (id.executorId) match { 
case Some(oldId) => 
// A block manager of the same executor already exists, so remove it (assumed dead) 
logError ("Got two different block manager registrations on same executor - " 
+ s" will replace old one $oldId with new one $id") 
removeExecutor (id.executorId) 
case None => 
} 
logInfo ("Registering block manager %s with %s RAM, %s".format( 
id.hostPort, Utils.bytesToString (maxMemSize), id)) 
blockManagerIdByExecutor (id.executorId) = id 
blockManagerInfo(id) = new BlockManagerInfo ( 
id, System.currentTimeMillis(), maxMemSize, slaveActor) 
} 
listenerBus.post (SparkListenerBlockManagerAdded (time, id, maxMemSize)) 











register 方 法 确保 blockManagerlnfo 持 有 消息 中 的 blockManagerld 及 对 应 信息 ， 并 且 确 保 每 个 Executor 最 多 只 能 有 一 个 blockManagerld，| 上 日 的 blockManagerld 会 被 移 除 。 最 后 向 listenerBus 中 
post (推送 ) 一 个 SparkListenerBlockManagerAdded 事 件 。 





Ora 


此 处 以 注册 BlockManager 为 例 ， 演 示 了 askDriverWithReply 和 tell 的 使 用 。 


44 ”磁盘 块 管理 器 DiskBlockManager 


4.4.1 DiskBlockManager 的 构造 过 程 


BlockManager 初 始 化 时 会 创建 DiskBlockManager，DiskBlockManager 的 构造 步骤 如 下 : 
























































1) 调用 createLocalDirs 方 法 创建 本 地 文件 目录 ， 然 后 创建 二 维 数组 subDirs， 用 来 缓存 一 级 目录 localDirs 及 二 级 目录 ， 其 中 二 级 目录 的 数量 根据 配置 spark.diskStore.subDirectories 获 取 ， 默 认为 64。 
以 笔者 本 地 为 例 ， 创 建 的 目录 为 : C: \Users\{username}\AppData\Local\Temp\spark-016f279f-4060-4065-b0cb-c7fad 1f616ae\spark-58cdc43a-a39d-4b49-b357-f5ce9cc5c051, spark- 
016f279f-4060-4065-b0cb-c7fad1f616ae 是 一 级 目录 ，spark-58cdc43a-a39d-4b49-b357-f5ce9cc5c051 是 二 级 目录 ， 见 代码 清单 4-12。 















































代码 清单 4-12 ”创建 本 地 文件 目录 的 creatLocalDirs 方 法 


private [spark] 
val subDirsPerLocalDir = blockManager.conf.getInt ("spark.diskStore.subDirectories", 64) 
private[spark] val localDirs: Array[File] = createLocalDirs (conf) 
if (localDirs.isEmpty) { 
logError ("Failed to create any local dir.") 
System.exit (ExecutorExitCode.DISK_STORE_FAILED_TO CREATE DIR) 
} 
private val subDirs = Array.fill(localDirs.length) (new Array [File] (subDirsPerLocalDir) ) 


private def createLocalDirs(conf: SparkConf): Array[File] = { 
Utils.getOrCreateLocalRootDirs (conf) .flatMap { rootDir => 
try { 


val localDir = Utils.createDirectory(rootDir, "blockmgr") 
logInfo(s"Created local directory at $localDir") 
Some (localDir) 


} catch { 
case e: IOException => 
logError(s"Failed to create local dir in $rootDir. Ignoring this directory.", e) 
None 


Oza 


createLocalDirs 方 法 具体 创建 目录 的 过 程 实际 调用 了 Utils 的 getOrCreateLocalRootDirs 和 createDirectory 方 法 。 有 关 Utils 的 使 用 请 参见 附录 A。 





























2) 添加 运行 时 环境 结束 时 的 钩子 ， 用 于 在 进程 关闭 时 创建 线程 ， 通 过 调用 Disk-BlockManager 的 stop 方 法 ， 清 除 一 些 临 时 目录 ， 见 代码 清单 4-13。 

















代码 清单 4-13 addShutdownHook 的 实现 





addShutdownHook () 
private def addShutdownHook() { 
Runtime.getRuntime.addShutdownHook (new Thread("delete Spark local dirs") { 
override def run(): Unit = Utils.logUncaughtExceptions { 
logDebug ("Shutdown hook called") 
DiskBlockManager.this.stop () 


3) 


/** Cleanup local dirs and stop shuffle sender. */ 
private[spark] def stop() { 
// Only perform cleanup if an external service is not serving our shuffle files. 
if (!blockManager.externalShuffleServiceEnabled || blockManager.blockManagerId.isDriver) { 
localDirs.foreach { localDir => 


if (localDir.isDirectory() && localDir.exists()) { 
try { 
if (!Utils.hasRootAsShutdownDeleteDir(localDir)) Utils.deleteRecursively (localDir) 
} catch { 


case e: Exception => 
logError (s"Exception while deleting local spark dir: $localDir", e) 




















DiskBlockManager 为 什么 要 创建 二 级 目录 结构 ”这 是 因为 二 级 目录 用 于 对 文件 进行 散 列 存储 ， 散 列 存储 可 以 使 所 有 文件 都 随机 存放 ， 写 入 或 删除 文件 更 方便 ， 存 取 速 度 快 ， 节 省 空间 。 











44.2 ”获取 磁盘 文件 方法 getFile 





很 多 代码 中 都 使 用 DiskBlockManager 的 getFile 方 法 ， 获 取 磁 盘 上 的 文件 ， 通 过 对 getFile 的 分 析 ， 能 够 掌握 Spark 磁 盘 散 列 文件 存储 的 实现 机 制 。getFile 方 法 的 实现 见 代码 清单 4-14， 其 处 理 步骤 如 











1) 根据 文件 名 计算 哈 希 值 。 


2) 根据 哈 希 值 与 本 地 文件 一 级 目录 的 总 数 求 余数 ， 记 为 dirld。 








3) 根据 哈 希 值 与 本 地 文件 一 级 目录 的 总 数 求 商 数 ， 此 商 数 与 二 级 目录 的 数目 再 求 余数 ， 记 为 subDirld。 




















4) 如 果 dirld/subDirld 目 录 存 在 ， 则 获取 dirld/subDirld 目 录 下 的 文件 ， 否 则 新 建 dirld/subDirld 目 录 。 


代码 清单 4-14 getFile 方 法 的 实现 





def getFile(blockId: BlockId): File getFile (blockId.name) 
def getFile(filename: String): File { 
val hash = Utils.nonNegativeHash (filename) 
val dirId = hash % localDirs.length 
val subDirId = (hash / localDirs.length) % subDirsPerLocalDir 
var subDir = subDirs(dirId) (subDirlId) 
if (subDir = null) { 
subDir = subDirs(dirId) «synchronized { 
val old = subDirs (dirId) (subDirId) 
if (old != null) { 
old 
} else { 
val newDir = new File(localDirs(dirId), "%02x".format (subDirId) ) 
newDir.mkdir () 
subDirs (dirId) (subDirId) = newDir 
newDir 


} 
} 


new File(subDir, filename) 





44.3 ”创建 临时 Block 方 法 createTempShuffleBlock 














当 ShuffleMapTask 运 行 结束 需要 把 中 间 结 果 临 时 保存 ， 此 时 就 调用 createTempShuffle-Block 方 法 创建 临时 的 Block， 并 返回 TempShuffleBlockld 与 其 文件 的 对 偶 ， 见 代码 清单 4-15。 





TempshuffleBlockld 的 生成 规则 : "temp_shuffle“ 后 加 上 UUID 字 符 串 。 


代码 清单 4-15 ”createTempShuffleBlock 方 法 的 实现 


def createTempShuffleBlock(): (TempShuffleBlockId, File) = { 

var blockId = new TempShuffleBlockId(UUID.randomUUID() ) 
while (getFile(blockId) .exists()) { 

blockId = new TempShuffleBlockId (UUID. randomUUID() ) 


} 
(blockId, getFile(blockId) ) 


45 ”磁盘 存储 DiskStore 











当 MemoryStore 没 有 足够 空间 时 ， 就 会 使 用 DiskStore 将 块 存 入 磁盘 。DiskStore 继 承 自 BlockStore， 并 实现 了 getBytes、 























4.5.1 ”NIO 读 取 方 法 getBytes 











getBytes 方 法 通过 DiskBlockManager 的 getFile 方 法 获取 文件 。 然 后 使 用 NIO 将 文件 读 取 到 ByteBuffer， 见 代码 清单 4-16。 





代码 清单 4-16 ”getBytes 的 实现 











putBytes、putArray、putlterator 等 方法 。 





private def getBytes (file: File, offset: Long, length: Long): Option[ByteBuffer] = { 
val channel = new RandomAccessFile(file, "r") .getChannel 
try { 
// For small files, directly read rather than memory map 
if (length < minMemoryMapBytes) { 
val buf = ByteBuffer.allocate (length.toInt) 
channel .position (offset) 
while (buf.remaining() != 0) { 
if (channel.read(buf) == -1) { 
throw new IOException ("Reached EOF before filling buffer\n" + 
s"offset=Soffset \nfile=${file.getAbsolutePath}\nbuf.remaining= ${buf.remaining}") 
} 


f 
buf.flip() 
Some (buf) 
} else { 
Some (channel .map (MapMode.READ ONLY, offset, length) ) 


} 
} finally { 
channel .close () 
} 
} 
override def getBytes (blockId: BlockId): Option[ByteBuffer] = { 
val file = diskManager.getFile (blockId.name) 
getBytes (file, 0, file.length) 
} 


45.2 ”NIO 写 入 方法 putBytes 




















putBytes 方 法 的 作用 是 通过 DiskBlockManager 的 getFile 方 法 获取 文件 。 然 后 使 用 NIO 的 Channel 将 ByteBuffer 写 入 文件 ， 











代码 清单 4-17 ”putBytes 的 实现 


见 代码 清单 4-17。 





override def putBytes (blockId: BlockId, _bytes: ByteBuffer, level: StorageLevel): PutResult = { 
val bytes = _bytes.duplicate() p 
logDebug (s"Attempting to put block $blockId") 
val startTime = System.currentTimeMillis 
val file = diskManager.getFile (blockId) 
val channel = new FileOutputStream (file) .getChannel 
while (bytes.remaining > 0) { 
channel .write (bytes) 
} 
channel .close () 
val finishTime = System.currentTimeMillis 
logDebug ("Block %s stored as %s file on disk in %d ms". format ( 
file.getName, Utils.bytesToString(bytes.limit), finishTime - startTime) ) 
PutResult (bytes.limit(), Right (bytes.duplicate() )) 





4.5.3 ”数组 写 入 方法 putArray 




















putArray 内 部 实际 调用 了 putlterator， 代 码 如 下 。 


override def putArray ( 
blockId: BlockId, 
values: Array[Any], 
level: StorageLevel, 
returnValues: Boolean): PutResult = { 
putIterator (blockId, values.toIterator, level, returnValues) 


454 lterator 写 入 方法 putlterator 











putlterator 的 实现 见 代 码 清单 4-18， 其 处 理 步骤 如 下 : 











1) 使 用 了 DiskBlockManager 的 getFile 获 取 blockld 对 应 的 Block 文 件 ， 并 封装 为 FileOutputStream。 




















2) 调用 BlockManager 的 dataSerializeStream 方 法 ， 将 FileOutputStream 序 列 化 并 压缩 。dataSerializeStream 的 实现 见 4.8.12 节 。 








3) 如 果 需 要 返回 写 入 的 数据 ( 即 returnValues 等 于 true) ， 则 将 写 入 的 文件 使 用 getBytes 读 取 为 ByteBuffer， 与 文件 的 长 








代码 清单 4-18 ”putlterator 的 实现 





度 一 并 封装 到 PutResult 中 并 返回 ， 否 则 只 返回 文件 长 度 。 


val startTime = System.currentTimeMillis 
val file = diskManager.getFile (blockId) 
val outputStream = new FileOutputStream (file) 
try { 
try { 
blockManager.dataSerializeStream(blockId, outputStream, values) 
} finally { 
outputStream. close () 
} 
} catch { 
case e: Throwable => 
if (file.exists()) { 
file.delete () 
} 
throw e 
} 
val length = file.length 
val timeTaken = System.currentTimeMillis - startTime 
if (returnValues) { 
val buffer = getBytes (blockId) .get 
PutResult (length, Right (buffer) ) 
} else { 
PutResult (length, null) 
} 





46 ”内 存 存 储 MemoryStore 


MemoryStore 负 责 将 没有 序列 化 的 Java 对 象 数组 或 者 序列 化 的 ByteBuffer 存 储 到 内 存 中 。 我 们 先 来 看 看 MemoryStore 的 数据 结构 ， 见 代码 清单 4-19。 


代码 清单 4-19 ”MemoryStore 的 数据 结构 





private[spark] class MemoryStore (blockManager: BlockManager, maxMemory: Long) 
extends BlockStore(blockManager) { 
private val conf = blockManager.conf 
private val entries = new LinkedHashMap[BlockId, MemoryEntry] (32, 0.75f, true) 
@volatile private var currentMemory = OL 
// Ensure only one thread is putting, and if necessary, dropping blocks at any given time 
private val accountingLock = new Object 
private val unrollMemoryMap = mutable.HashMap[Long, Long] () 
private val maxUnrollMemory: Long = { 
val unrollFraction = conf.getDouble("spark.storage.unrollFraction", 0.2) 
(maxMemory * unrollFraction) .toLong 
} 
private val unrollMemoryThreshold: Long = 
conf.getLong ("spark.storage.unrollMemoryThreshold", 1024 * 1024) 
def freeMemory: Long = maxMemory - currentMemory 





根据 代码 清单 4-19， 我 们 先 来 用 一 张 图 来 说 明 MemoryStore 的 内 存 模型 ， 见 图 4-3。 
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图 4-3 MemoryStore 的 内 存 模型 


从 图 4-3 中 看 出 ， 整 个 MemoryStore 的 存储 分 为 两 块 : 一 块 是 被 很 多 MemoryEntry 占 据 的 内 存 currentMemory， 这 些 MemoryEntry 实 际 是 通过 entries ( 即 
LinkedHashMap[Blockld，MemoryEntry) 持 有 的 ; 另 一 块 是 unrollMemoryMap 通 过 占 座 方式 占用 的 内 存 current-UnrollMemory。 所 谓 占 座 ， 好 比 教 室 里 空 着 的 座位 ， 有 人 在 座位 上 放 上 书本 ， 以 防 在 
需要 坐 的 时 候 ， 却 发 现 没有 位 置 了 。 比 起 人 的 行为 ，unrollMemoryMap 占 座 的 出 发 点 却 是 “高 尚 ”的 ， 这 样 可 以 防止 在 向 内 存 真正 写 入 数据 时 ， 内 存 不 足 发 生 溢出 。 每 个 线程 实际 占用 的 空间 ， 其 实 是 
vector ( 即 SizeTrackingVector) 占用 的 大 小 ， 但 是 unrollMemoryMap 的 大 小 会 稍 大 些 。 

















这 里 把 代码 清单 4-19 中 的 一 些 概念 ， 结 合 图 4-3 再 解释 下 : 





+ maxUnrollMemory: 当前 Drivet 或 者 Executor 最 多 展开 的 Block 所 占用 的 内 存 ， 可 以 修改 属性 spark.storage.untollFraction 改 变 大 小 ; 
- maxMemory: 当前 Drtivet 或 者 Executor 的 最 大 内 存 ; 


“currentMemory: 当前 Driver 或 者 Executor 已 经 使 用 的 内 存 ; 


' freeMemory: 24 Mf Driver # Executor KAR JA 49 A A, free Memory = maxMemory — currentMemory ; 


“ currentUnrollMemory: unrollMemoryMap 中 所 有 展开 的 Block 的 内 存 之 和 ， 即 当前 Driver 或 者 Executor 中 所 有 线程 展开 的 Block 的 内 存 之 和 ; 


“ unrollMemoryMap: 当前 Driver 或 者 Executor 中 所 有 线程 展开 的 Block 都 存 入 此 Map 中 ，key 为 线程 Id，value 为 线程 展开 的 所 有 块 的 内 存 的 大 小 总 和 。 

















MemoryStore 继 承 自 BlockStore， 并 实现 了 getBytes、putBytes、putArray、putlterator、getValues 等 方法 。 下 面 逐个 介绍 MemoryStore 中 实现 的 各 个 方法 。 


4.6.1 数据 存储 方法 putBytes 


如 果 Block 可 以 被 反 序 列 化 〈 即 存储 级 别 StorageLevel.Deserialized 等 于 ture) ， 那 么 先 对 Block 序 列 化 ， 然 后 调 有 


代码 清单 4-20 ”putBytes 的 实现 





























putlterator; 否则 调用 tryToPut 方 法 ， 见 代码 清单 4-20。 

















override def putBytes(blockId: BlockId, bytes: ByteBuffer, level: StorageLevel): PutResult 


// Work on a duplicate - since the original input might be used elsewhere. 
val bytes = _bytes.duplicate() 
bytes. rewind () 
if (level.deserialized) { 
val values = blockManager.dataDeserialize(blockId, bytes) 
putIterator (blockId, values, level, returnValues = true) 
} else { 
val putAttempt = tryToPut (blockId, bytes, bytes.limit, deserialized = false) 
PutResult (bytes.limit(), Right (bytes.duplicate()), putAttempt .droppedBlocks) 


= 





4.6.2 lterator 写 入 方法 putlterator 详 解 











MemoryStore 的 putlterator 方 法 的 实现 见 代 码 清单 4-21。 调 用 unrollSafely 将 块 在 内 存 中 安全 展开 ， 如 果 返 回 









































数据 的 类 型 匹配 Left (arrayValues) ， 则 说 明 内 存 足 够 并 调用 putArray 方 法 写 入 内 存 


如 果 返 回 数据 的 类 型 匹配 Right (iteratorValues) ， 则 说 明 内 存 不 足 并 写 入 硬盘 或 者 放弃 。diskStore.putlterator 的 实现 见 4.5.4 节 。unrollSafely 方 法 将 在 4.6.3 节 说 明 。 


代码 清单 4-21 MemoryStore.putlterator 的 实现 


' 





private[storage] def putIterator( 
blockId: BlockId, 
values: Iterator [Any], 
level: StorageLevel, 
returnValues: Boolean, 
allowPersistToDisk: Boolean): PutResult = { 
val droppedBlocks = new ArrayBuffer[(BlockId, BlockStatus) ] 
val unrolledValues = unrollSafely(blockId, values, droppedBlocks) 
unrolledValues match { 
case Left (arrayValues) => 
// Values are fully unrolled in memory, so store them as an array 
val res = putArray(blockId, arrayValues, level, returnValues) 
droppedBlocks ++= res.droppedBlocks 
PutResult (res.size, res.data, droppedBlocks) 
case Right (iteratorValues) => 
// Not enough space to unroll this block; drop to disk if applicable 
if (level.useDisk && allowPersistToDisk) { 
logWarning(s"Persisting block $blockId to disk instead.") 


val res = blockManager.diskStore.putIterator(blockId, iteratorValues, level, returnValues) 


PutResult (res.size, res.data, droppedBlocks) 
} else { 

PutResult (0, Left (iteratorValues), droppedBlocks) 
} 





4.6.3 安全 展开 方法 unrollSafely 

















为 了 防止 写 入 内 存 的 数据 过 大 ， 导 致 内 存 溢出 ，Spark 采 用 了 一 种 优化 方案 : 在 正式 写 入 内 存 之 前 ， 先 








开 方 法 unrollSafely 中 一 些 变量 及 算法 的 定义 。 


表 4-1 unrollSafely 中 


一 些 














逻辑 方式 申请 内 存 ， 如 果 





请 成 功 ， 再 写 入 内 存 ， 这 个 过 程 称 为 安全 展开 。 表 4-1 列 出 了 安全 





iss 


变 量 名 = 义 
elementsUnrolled 展开 的 元 素数 量 


每 个 线程 用 来 展开 Block 的 初始 内 存 辣 值 ， 可 以 修改 属性 spark storage.unrollMemory- 
Threshold 改变 大 小 


memoryCheckPeriod 经 过 多 少 次 展开 内 存 后 ,判断 是 否 需 要 申请 更 多 内 存 

memoryThreshold 当前 线程 保留 的 用 于 特殊 展开 操作 的 内 存 阔 值 

memoryGrowthFactor 内 存 请 求 因 子 ， 与 vector 的 大 小 乘积 ， 减 去 memoryThreshold 作为 新 请 求 的 内 存 大 小 
previousMemoryReserved | 之 前 当前 线程 已 经 展开 的 驻 留 的 内 存 大 小 ， 当 前 线程 增加 的 展开 内 存 ， 最 后 会 释放 
vector 跟踪 展开 内 存 信息 

maxUnrollMemory 当前 Driver 或 者 Executor 最 多 展开 的 Block 所 占用 的 内 存 


initialMemoryThreshold 


maxMemory 当前 Driver 或 者 Executor 的 最 大 内 存 
currentMemory 当前 Driver 或 者 Executor 已 经 使 用 的 内 存 
freeMemory 当前 Driver 或 者 Executor 未 使 用 的 内 存 : free Memory = maxMemory - currentMemory 
—, unrollMemoryMap 中 所 有 展开 的 Block 的 内 存 之 和 ， 即 当前 Driver 或 者 Executor 中 所 
ce nro Vemory | 有 线程 展开 的 Block 的 内 存 之 和 
当前 Driver 或 者 Executor 中 所 有 线程 展开 的 Block 都 存 人 此 Map 中 ，key 为 线程 Id， 
unrollMemoryMap 


value 为 线程 展开 的 所 有 块 的 内 存 的 大 小 总 和 
currentSize vector 中 跟踪 的 对 象 的 总 大 小 


标记 是 否 有 足够 的 内 存 可 以 继续 展开 Block 


keepUnrolli - ca 仔 
eepUnrolling keepUnrolling = freeMemory > currentUnrollMemory + memory (要 分 配 内 ff ) 


有 了 上 述 概念 ， 下 面 我 们 列 出 展开 内 存 的 步骤 : 


1) 申请 memoryThreshold 的 初始 大 小 为 initialMemoryThreshold。 








2) 如 果 Iterator[Any] 中 有 元 素 并 且 keepUnrolling 为 true， 则 向 vector 中 添加 Iterator-[Any] 中 的 对 象 ，elementsUnrolled 自 增 1。 如 果 lterator[Any] 中 没有 元 素 或 者 keepUnrolling 不 等 于 true， 则 跳 
转 至 第 4) 步 。 























3) 如 果 elementsUnrolled%memoryCheckPeriod==0， 则 开始 检查 currentSize 是 否 已 经 比 memoryThreshold 大 ? 假如 currentSize 已 经 超过 了 memoryThreshold， 则 需要 再 申请 内 存 ， 申 请 内 存 
大 小 amountToRequest=currentSizexmemoryGrowthFactor-memoryThreshold。 如 果 申 请 失败 ， 但 是 maxUnrollMemory>currentUnrollMemory， 则 要 求 释 放 当 前 Driver 或 者 Executor 的 其 他 内 
存 ， 具 体 释 放 过 程 在 4.6.4 节 讲解 。 释 放 内 存 必 然 伴随 着 其 他 Block 被 移入 硬盘 或 者 彻底 清除 ， 这 些 块 的 状态 会 在 释放 后 返回 。 此 时 再 次 申请 内 存 ，memoryThreshold 增 加 的 大 小 为 amountToRequest。 返 
回 第 2) 步 。 




















4) 根据 是 否 将 Block 完 整地 放 入 内 存 ， 以 数组 或 者 迭代 器 形式 返回 vector 的 数据 。 





























5) 最 后 在 finally 语 句 块 里 ， 还 会 计算 本 次 展开 块 实际 占用 的 空间 amountToRelease， 并 更 新 unrollMemoryMap 中 当前 线程 占用 的 内 存 大 小 ， 并 减 去 amountToRelease。 如 果 unrollMemoryMap 中 
当前 线程 占用 的 内 存 大 小 小 于 等 于 0， 则 从 unrollMemoryMap 中 完全 清除 此 线程 的 数据 。 




















对 展开 Block 的 算法 就 描述 到 这 里 ， 读 者 可 以 结合 图 4-3 进 行 分 析 。unrollSafely 的 实现 见 代码 清单 4-22。 


代码 清单 4-22 ”unrollSafely 的 实现 





def unrollSafely( 
blockId: BlockId, 
values: Iterator [Any], 
droppedBlocks: ArrayBuffer[ (BlockId, BlockStatus) ]) 
: Either [Array[Any], Iterator[Any]] = { 
// Number of elements unrolled so far 
var elementsUnrolled = 0 
// Whether there is still enough memory for us to continue unrolling this block 
var keepUnrolling = true 
// Initial per-thread memory to request for unrolling blocks (bytes). Exposed for testing. 
val initialMemoryThreshold = unrollMemoryThreshold 
// How often to check whether we need to request more memory 
val memoryCheckPeriod = 16 
// Memory currently reserved by this thread for this particular unrolling operation 
var memoryThreshold = initialMemoryThreshold 
// Memory to request as a multiple of current vector size 
val memoryGrowthFactor = 1.5 
// Previous unroll memory held by this thread, for releasing later (only at the very end) 
val previousMemoryReserved = currentUnrol]lMemoryForThisThread 
// Underlying vector for unrolling the block 
var vector = new SizeTrackingVector [Any] 
// Request enough memory to begin unrolling 
keepUnrolling = reserveUnrollMemoryForThisThread (initialMemoryThreshold) 
// Unroll this block safely, checking whether we have exceeded our threshold periodically 
try { 
while (values.hasNext && keepUnrolling) { 
vector += values.next () 
if (elementsUnrolled % memoryCheckPeriod == 0) { 
// If our vector's size has exceeded the threshold, request more memory 
val currentSize = vector.estimateSize () 
if (currentSize >= memoryThreshold) { 
val amountToRequest = (currentSize * memoryGrowthFactor - memoryThreshold) .toLong 


// Hold the accounting lock, in case another thread concurrently puts a block that 
// takes up the unrolling space we just ensured here 


accountingLock.synchronized { 


if (!reserveUnrollMemoryForThisThread (amountToRequest)) { 
// If the first request is not granted, try again after ensuring free space 
// If there is still not enough space, give up and drop the partition 
val spaceToEnsure = maxUnrollMemory - currentUnrollMemory 


if (spaceToEnsure > 0) 


val result = ensureFreeSpace (blockId, spaceToEnsure) 
droppedBlocks ++= result.droppedBlocks 


keepUnrolling = reserveUnrollMemoryForThisThread (amountToRequest) 


} 


// New threshold is currentSize * memoryGrowthFactor 
memoryThreshold += amountToRequest 


} 


elementsUnrolled += 1 


} 
if (keepUnrolling) { 


// We successfully unrolled the entirety of this block 


Left (vector.toArray) 
} else { 


// We ran out of space while unrolling the values for this block 
logUnrollFailureMessage (blockId, vector.estimateSize() ) 


Right (vector.iterator ++ values) 


} 
} finally { 


// If we return an array, the values returned do not depend on the underlying vector and 
// we can immediately free up space for other threads. Otherwise, if we return an iterator, 
// we release the memory claimed by this thread later on when the task finishes. 


if (keepUnrolling) { 


val amountToRelease = currentUnrollMemoryForThisThread - previousMemoryReserved 
releaseUnrol1MemoryForThisThread (amountToRelease) 











unrollsafely 多 次 用 到 reserveUnrollMemoryForThisThread， 以 便 给 当前 线程 申请 逻辑 内 存 ， 它 的 实现 如 下 。 














def reserveUnrollMemoryForThisThread (memory: Long): Boolean = { 


accountingLock.synchronized { 


val granted = freeMemory > currentUnrollMemory + memory 


if (granted) { 


val threadId = Thread.currentThread() .getId 
unrollMemoryMap (threadId) = unrollMemoryMap.getOrElse(threadId, OL) + memory 


} 
granted 





464 ”确认 空 闪 内 存 方法 ensureFreeSpace 

















ensureFreeSpace 方 法 上 





变量 名 








于 确认 是 否 有 足够 内 存 ， 如 果 不 足 ， 会 释放 被 MemoryEntry 占 用 的 内 存 。 为 了 叙述 方便 ， 通 过 表 4-2 说 明 一 些 变量 。 











表 4-2 ensureFreeSpace 中 的 一 些 变量 含义 


含 xX 





actualFreeMemory 实际 空闲 的 内 存 : actualFreeMemory = freeMemory 一 currentUnrollMemory 
selectedBlocks 已 经 选择 要 从 内 存 中 膳 出 的 Block 对 应 的 BlockId 的 数组 

selectedMemory selectedBlocks 中 的 所 有 块 的 总 大 小 

space 需要 腾 出 的 内 存 大 小 

entries 用 于 存放 Block， 类 型 为 LinkedHashMap[BlockId, MemoryEntry] 


blockIdToAdd 


将 要 添加 的 Block 对 应 的 blockId 


有 了 上 述 概念 ， 我 们 现在 来 看 ensureFreeSpace 的 实现 ， 见 代码 清单 4-23。ensureFree-Space 的 处 理 步 又 如 下 : 





回 


1) space 不 能 超过 maxMemory 的 限制 ， 否 则 返回 。 














2) 如 果 actualFreeMemory 大 于 等 于 space， 说 明 此 时 已 经 有 充足 的 内 存 ， 不 需要 释放 内 存 空间 ， 直 接 返回 。 如 果 actualFreeMemory 小 于 space， 则 说 明 空 闲 空间 不 足 ， 需 要 释放 一 部 分 已 经 占用 的 








内 存 。 












































3) 当 actualFreeMemory+selectedMemory<space， 则 迭代 entries 获 得 blockld 和 Memory-Entry。 如 果 blockldToAdd 的 rddld 是 空 或 者 blockldToAdd 的 rddld 不 等 于 MemoryEntry 对 应 blockld 的 


rddld[1]， 则 将 blockld 加 入 selectedBlocks， selectedMemory 增 加 MemoryEntry 的 大 小 。 


4) 当 actualFreeMemory + selectedMemory>space 时 ， 则 说 明 可 以 腾 出 足够 的 内 存 空间 。 此 时 将 selectedBlocks 中 所 有 的 blockld 对 应 于 entries 里 的 MemoryEntry 取 出 ， 通 过 判断 MemoryEntry 是 


否 可 以 反 序列 化 ， 分 别 转换 为 Array[Any] 或 者 ByteBuffer， 调 
dropFromMemory 的 实现 将 在 4.8.1 节 说 明 。 


代码 清单 4-23 ensureFreeSpace 方 法 的 实现 























blockManager 的 dropFromMemory 方 法 ， 从 内 存 中 移 除 blockld 及 MemoryEntry， 此 方法 最 终 返 回 


移 除 的 Block 的 状态 。 





private def ensureFreeSpace ( 
blockIdToAdd: BlockId, 
space: Long): ResultWithDroppedBlocks = { 


logInfo (s"ensureFreeSpace ($space) called with curMem=ScurrentMemory, maxMem=$maxMemory") 
val droppedBlocks = new ArrayBuffer[(BlockId, BlockStatus) ] 


if (space > maxMemory) { 


logInfo(s"Will not store $blockIdToAdd as it is larger than our memory limit") 
return ResultWithDroppedBlocks (success = false, droppedBlocks) 


// Take into account the amount of memory currently occupied by unrolling blocks 
val actualFreeMemory = freeMemory - currentUnrollMemory 


if (actualFreeMemory < space) { 
val rddToAdd = getRddId (blockIdToAdd) 


val selectedBlocks = new ArrayBuffer[BlockId] 


var selectedMemory = 0L 
entries.synchronized { 


val iterator entries.entrySet () .iterator () 
while (actualFreeMemory + selectedMemory < space && iterator.hasNext) 
val pair iterator .next () 
val blockId = pair.getKey 
if (rddToAdd.isEmpty || rddToAdd != getRddId(blockId)) { 
selectedBlocks += blockId 


selectedMemory += pair.getValue.size 


{ 


} 


if (actualFreeMemory + selectedMemory >= space) { 
logInfo(s"${selectedBlocks.size} blocks selected for dropping") 
for (blockId <- selectedBlocks) { 
val entry entries.synchronized { entries.get (blockId) 
if (entry null) { 
val data if (entry.deserialized) { 
Left (entry.value.asInstanceOf [Array [Any] ]) 
} else { 
Right (entry. value.asInstanceOf [ByteBuffer] .duplicate() ) 


} 





} 
val droppedBlockStatus 


} 
} 
return ResultWithDroppedBlocks (success 
} else { 


true, droppedBlocks) 


blockManager .dropFromMemory (blockId, data) 
droppedBlockStatus.foreach { status => droppedBlocks += ((blockId, status)) 


} 


logInfo(s"Will not store $blockIdToAdd as it would require dropping another block " + 


"from the same RDD") 
return ResultWithDroppedBlocks (success 


false, droppedBlocks) 
} 


} 
ResultWithDroppedBlocks (success = true, droppedBlocks) 





465 ”内 存 写 入 方法 putArray 


内 存 写 入 方法 putArray 首 先 对 对 象 大 小 进行 估算 ， 然 后 写 入 内 存 。 如 果 unrollSafely 返 回 的 数据 
putArray 方 法 ， 见 代码 清单 4-24。 





代码 清单 4-24 ”putArray 的 实现 











匹配 Left (arrayValues) ， 根 据 前 面 的 分 析 知 道 ， 整 个 Block 是 可 以 一 次 性 放 入 内 存 的 。 此 时 调 











override def putArray( 
blockId: BlockId, 
values: Array[Any], 
level: StorageLevel, 
returnValues: Boolean): 


PutResult { 


if (level.deserialized) { 
val sizeEstimate = SizeEstimator.estimate (values.asInstanceOf [AnyRef] ) 
val putAttempt = tryToPut (blockId, values, sizeEstimate, deserialized = true 
PutResult (sizeEstimate, Left (values.iterator), putAttempt.droppedBlocks) 

} else { 


val bytes blockManager.dataSerialize(blockId, values.iterator) 
val putAttempt tryToPut (blockId, bytes, bytes.limit, deserialized = false) 
PutResult (bytes.limit(), Right (bytes.duplicate()), putAttempt .droppedBlocks) 


) 




















SizeEstimator.estimate, 





来 估算 对 象 的 大 小 ， 遍 历 对 象 及 其 





代码 清单 4-25 ”估算 对 象 大 小 的 方法 estimate 


属性 。 估 算 对 象 大 小 见 代码 清单 4-25。 





def estimate (obj: AnyRef): Long = estimate(obj, new IdentityHashMap[AnyRef, AnyRef]) 


private def estimate(obj: AnyRef, visited: IdentityHashMap[AnyRef, AnyRef]): Long = 
val state = new SearchState (visited) 
state.enqueue (obj) 
while (!state.isFinished) { 
visitSingleObject (state.dequeue(), state) 
} 
state. size 
} 
private def visitSingleObject (obj: AnyRef, state: SearchState) { 
val cls = obj.getClass 
if (cls.isArray) { 
visitArray(obj, cls, state) 
} else if (obj.isInstanceOf[ClassLoader] || obj.isInstanceOf[Class[_]]) { 


} else { 
val classInfo getClassInfo (cls) 
state.size += classInfo.shellSize 
for (field <- classInfo.pointerFields) 
state.enqueue (field.get (obj) ) 


{ 
$ 


4.6.6 ”尝试 写 入 内 存 方法 tryToPut 


{ 


根据 4.6.1 节 的 内 容 我 们 知道 ， 当 Block 不 支持 序列 化 时 ， 会 调用 tryToPut 方 法 。 在 介绍 MemoryStore 的 putArray 方 法 时 ， 也 最 终 使 用 此 方法 。 











tryToPut 的 实现 见 代码 清单 4-26。 可 以 看 到 tryToPut 也 调 
代码 吗 ? 不 ， 




















了 ensureFreeSpace 方 法 ， 记 得 在 调用 tryToPut 之 前 ， 已 经 在 unrollsafely 方 法 中 调 
因为 在 展开 阶段 ， 即 便 内 存 充 足 ， 当 真正 写 入 数据 时 依然 可 能 内 存 不 足 ， 所 以 需要 再 次 确认 空闲 内 存 是 否 充足 。 



































过 ensureFreeSpace 了， 这 难道 是 重复 调 





了 同一 份 














如 果 内 存 充足 或 者 迁移 其 他 内 存 Block 后 有 足够 内 存 ， 则 会 创建 MemoryEntry 对 象 ， 并 将 此 对 象 与 其 blockld 放 入 entries 中 ，currentMemory 会 上 浮 估算 的 大 小 size。 如 果 此 时 内 存 不 足 ， 还 要 把 此 


blockld 对 应 的 MemoryEntry 对 象 迁移 到 磁盘 或 者 清除 。 


代码 清单 4-26 tryToPut 的 实现 


private def tryToPut ( 
blockId: BlockId, 
value: Any, 
size: Long, 
deserialized: Boolean) : 
var putSuccess = false 
val droppedBlocks new ArrayBuffer[(BlockId, BlockStatus) ] 
accountingLock.synchronized { 
val freeSpaceResult ensureFreeSpace (blockId, size) 
val enoughFreeSpace = freeSpaceResult.success 
droppedBlocks ++= freeSpaceResult .droppedBlocks 
if (enoughFreeSpace) { 
val entry = new MemoryEntry(value, size, deserialized) 
entries.synchronized { 
entries.put (blockId, entry) 
currentMemory += size 


ResultWithDroppedBlocks { 


val valuesOrBytes = if (deserialized) "values" else "bytes" 


logInfo ("Block %s stored as %s in memory (estimated size %s, free %s)".format ( 
blockId, valuesOrBytes, Utils.bytesToString(size), Utils.bytesToString (freeMemory) ) ) 
putSuccess = true 
} else { 
// Tell the block manager that we couldn't put it in memory so that it can drop it to 
// disk if the block allows disk storage. 
val data = if (deserialized) { 
Left (value.asInstanceOf [Array [Any] ]) 
} else { 
Right (value.asInstanceOf [ByteBuffer] .duplicate() ) 
} 
val droppedBlockStatus = blockManager.dropFromMemory (blockId, data) 
droppedBlockStatus.foreach { status => droppedBlocks += ((blockId, status)) } 
} 


} 
ResultWithDroppedBlocks (putSuccess, droppedBlocks) 





46.7 ”获取 内 存 数据 方法 getBytes 

















getBytes 方 法 用 于 从 entries 中 获取 MemoryEntry， 见 代码 清单 4-27。 


代码 清单 4-27 getBytes 的 实现 





override def getBytes (blockId: BlockId): Option[ByteBuffer] = { 
val entry = entries.synchronized { 
entries .get (blockId) 
} 
if (entry = null) { 
None 
} else if (entry.deserialized) { 
Some (blockManager.dataSerialize(blockId, entry.value.asInstanceOf [Array[Any]].iterator) ) 
} else { 
Some (entry.value.asInstanceOf [ByteBuffer] .duplicate()) // Doesn't actually copy the data 
} 











从 代码 清单 4-27 看 到 ， 如 果 MemoryEntry 支 持 反 序列 化 ， 则 将 MemoryEntry 的 value 反 序列 化 后 反 回 ， 否 则 对 MemoryEntny 的 value 复 制 后 返回 。 





46.8 ”获取 数据 方法 getValues 

















getValues 也 用 于 从 内 存 中 获取 数据 ， 即 从 entries 中 获取 MemoryEntry， 并 将 blockld 和 value 返 回 ， 见 代码 清单 4-28。 





代码 清单 4-28 getValues 的 实现 





override def getValues (blockId: BlockId): Option[Iterator[Any]] = { 
val entry = entries.synchronized { 
entries .get (blockId) 
} 
if (entry = null) { 
None 
} else if (entry.deserialized) { 
Some (entry.value.asInstanceOf [Array [Any] ] . iterator) 
} else { 
val buffer = entry.value.asInstanceOf [ByteBuffer].duplicate() // Doesn't actually copy data 
Some (blockManager.dataDeserialize(blockId, buffer) ) 





{l] 这 可 以 排除 当前 RDD 自 身 在 MemoryStore 中 存储 的 Block。 


4.7 Tachyon 存 储 TachyonStore 














为 什么 要 使 用 Tachyon? 原因 如 下 : 








“ Spak 的 ShuffleMapTask 和 ResultTask 被 划分 到 不 同 Stage ，ShuffleMapTask 执 行 完毕 将 中 间 结 果 输 出 到 本 地 磁盘 文件 系统 (如 HDFS) ， 然 后 下 一 Stage 中 的 ResultTask 通 过 shuffleClient 下 载 ShuffleMapTask 的 
输出 到 本 地 磁盘 文件 系统 ， 这 种 基于 磁盘 的 读 写 效率 较 低 ; 


:Spark 的 计算 引擎 与 存储 体系 都 位 于 Executor 的 同一 进程 中 ， 当 计算 执行 崩溃 出 错 后 ， 存 储 体系 缓存 的 数据 也 会 全 部 丢失 ; 


“不同 的 Spak 任 务 可 能 会 访问 同样 的 数据 ， 例 如 两 个 任务 都 要 访问 HDFS 中 的 菜 些 Block， 每 个 任务 都 要 自己 去 磁盘 加 载 数 据 到 内 存 中 。 这 导致 数据 被 重复 加 载 到 内 存 ， 数 据 对 象 太 多 会 导致 lava GC 时 间 
过 长 等 问题 。 


4.7.1 Tachyon 简 介 


Tachyon 也 诞生 于 UCBerkeley 的 AMP 实 验 室 ， 是 以 内 存 为 中 心 的 高 容错 的 分 布 式 文件 系统 ， 能 够 为 集群 框架 (比如 spark、Map-Reduce 等 ) 提供 可 靠 的 内 存 级 的 文件 共享 服务 。 从 软件 栈 的 层次 来 
看 ，Tachyon 是 位 于 现 有 大 数据 计算 框架 和 大 数据 存储 系统 之 间 的 独立 的 一 层 ， 如 图 4-4 所 示 。 它 利用 底层 文件 系统 作为 备份 ， 对 于 上 层 应 用 来 说 ，Tachyon 就 是 一 个 分 布 式 文件 系统 。 



























































图 4-4 Tachyon 与 计算 框架 、 存 储 系统 的 层次 关系 


Tachyon 属 于 伯克利 大 数据 分 析 软 件 栈 (Berkeley Data Analytics Stack) 中 的 存储 层 软件 ， 如 图 4-5 所 示 。 





Storm MPI 








HDFS, 53, GlusterFS 








国 Supported Release @ In Development Related External Project 
图 4-5 “伯克利 大 数据 分 析 软件 栈 


Tachyon 的 整体 架构 如 图 4-6 所 示 。 
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图 4-6 ”Tachyon 的 整体 架构 
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Tachyon 也 采用 了 Master-Worker 的 架构 。Tachyon Master 支 持 ZooKeeper 进 行 容错 ， 用 于 管理 全 部 文件 的 元 数据 信息 ， 同 时 也 监控 各 个 Tachyon Worker 的 状态 。 每 个 Tachyon Worker 启 动 一 个 


守护 进程 ， 管 理 本 地 的 Ramdisk，Ramdisk 中 存储 了 具体 的 文件 数据 。Ramdisk 实 际 是 Tachyon 集 群 的 内 存 部 分 。 











Tachyon 的 容错 处 理 是 怎样 的 ? Tachyon 内 存 中 的 数据 如 果 不 落 地 岂 不 是 依然 有 丢失 问题 ? Tachyon 采 用 与 Spark 的 RDD 相 类 似 (都 是 基于 RDD 不 可 变性 以 及 粗 粒度 操作 ) 的 方法 ， 它 利用 lineage 信 息 




















(lineage-based recovery) 和 异步 记录 的 checkpoint 来 恢复 数据 ， 所 以 可 以 放心 大 胆 地 使 用 Tachyon 管 理 的 内 存 。 
Ozas 
更 多 Tachyon 的 信息 ， 请 访问 http://tachyon-project.org/。 


4.7.2 Tachyonstore 的 使 用 





Spark 源 码 自 带 例子 SparkTachyonHdfsLR 演 示 了 如 何 使 用 Tachyon， 此 例子 在 计算 过 程 中 将 RDD 持 久 化 到 Tachyon， 代 码 如 下 。 














val inputPath = args (0) 
val sparkConf = new SparkConf () .setAppName ("SparkTachyonHdfsLR") 
val conf = new Configuration () 
val sc = new SparkContext (sparkConf, 
InputFormat Info.computePreferredLocations ( 
Seq(new InputFormatInfo(conf, classOf[org.apache.hadoop.mapred.TextInputFormat], inputPath) ) 


val lines = sc.textFile (inputPath) 
val points = lines.map(parsePoint _) .persist (StorageLevel.OFF_HEAP) 
val ITERATIONS = args(1).toInt 
// Initialize w to a random value 
var w = DenseVector.fill(D){2 * rand.nextDouble - 1} 
println ("Initial w: " + w) 
for (i <- 1 to ITERATIONS) { 
println ("On iteration " + i) 
val gradient = points.map { p => 
p.x * (1 / (1 + exp(-p.y * (w.dot(p.x)))) - 1) * py 
}.reduce(_ + _) 


w -= gradient — 


println ("Final w: " + w) 
sc.stop() 





4.7.3” 写 入 Tachyon 内 存 的 方法 putIntoTachyonStore 


TachyonStore 也 实现 了 BlockStore 的 getSize、putBytes、putArray、putlterator、getValues、getBytes 等 方法 。 其 中 putBytes、putArray、putlterator 实 际 都 调用 了 


putintoTachyonStore，PutintoTachyonStore 用 于 将 数据 写 入 Tachyon 的 分 布 式 内 存 中 。putintoTachyonStore 的 实现 见 代码 清单 4-29。 


代码 清单 4-29 ”putintoTachyonStore 的 实现 








private def putIntoTachyonStore ( 
blockId: BlockId, 
bytes: ByteBuffer, 
returnValues: Boolean): PutResult = { 
val byteBuffer = bytes.duplicate() 
byteBuffer. rewind () 
logDebug(s"Attempting to put block $blockId into Tachyon") 
val startTime = System.currentTimeMillis 
val file = tachyonManager.getFile (blockId) 
val os = file.getOutStream(WriteType.TRY_CACHE) 
os .write (byteBuffer.array () ) 
os.close () 
val finishTime = System.currentTimeMillis 
logDebug ("Block %s stored as %s file in Tachyon in %d ms". format ( 
blockId, Utils.bytesToString (byteBuffer.limit), finishTime - startTime) ) 
if (returnValues) { 
PutResult (bytes.limit(), Right (bytes.duplicate())) 
} else { 
PutResult (bytes.limit(), null) 
} 





4.7.4 获取 序列 化 数据 方法 getBytes 


getValues 方 法 实际 也 调用 了 getBytes，getBytes 的 实现 见 代码 清单 4-30。 其 中 Tachyon-BlockManager 的 getFile 的 代码 实现 与 DiskBlockManager 非 常 类 似 ， 有 兴趣 的 读者 可 以 自己 找 资料 阅读 。 


代码 清单 4-30 ”getBytes 的 实现 





override def getBytes (blockId: BlockId): Option[ByteBuffer] = { 
val file = tachyonManager.getFile (blockId) 
if (file == null || file.getLocationHosts.size == 0) { 
return None 
} 
val is = file.getInStream(ReadType .CACHE) 
assert (is != null) 
try { 
val size = file.length 
val bs = new Array[Byte] (size.asInstanceOf [Int] ) 
ByteStreams.readFully(is, bs) 
Some (ByteBuffer.wrap (bs) ) 
} catch { 
case ioe: IOException => 
logWarning(s"Failed to fetch the block $blockId from Tachyon", ioe) 
None 
} finally { 
is.close() 


} 





4.8 块 管理 器 BlockManager 


已 经 介绍 了 BlockManager 中 的 主要 组 件 ， 现 在 来 看 看 BlockManager 自 身 的 实现 。 





4.8.1 移出 内 存 方法 dropFromMemory 


当 内 存 不 足 时 ， 可 能 需要 腾 出 部 分 内 存 空 间 。dropFromMemory 实 现 了 这 个 功能 ， 见 代码 清和 


4-31， 它 的 处 理 步骤 如 下 。 





1) 从 blocklnfo: TimestampedHashMap[Blockld，Blocklnfo] 中 检查 是 否 存 在 要 迁移 的 blo 








2) 如 果 StorageLevel 允 许 存 入 硬盘 ， 并 且 DiskStore 中 不 存在 此 文件 ， 那 么 调用 DiskStore 的 p 








3) 从 MemoryStore 中 清除 此 Blockld 对 应 的 Block。 











4) 使 用 getCurrentBlockStatus 方 法 获取 Block 的 最 新 状态 。 如 果 此 Block 的 tellMaster 属 性 为 true， 则 调 上 








4.8.2 节 描述 。 
5) 从 blocklnfo 中 清除 此 Blockld， 并 返回 Block 的 状态 。 


代码 清单 4-31 移出 内 存 的 实现 


def dropFromMemory ( 
blockId: BlockId, 
data: Either[Array[Any], ByteBuffer]): Option[BlockStatus] = { 
logInfo(s"Dropping block $blockId from memory") 
val info = blockInfo.get (blockId) .orNull 
// If the block has not already been dropped 
if (info != null) { 
info.synchronized { 
var blockIsUpdated = false 
val level = info.level 
// Drop to disk, if storage level requires 
if (level.useDisk && !diskStore.contains(blockId)) { 
logInfo(s"Writing block $blockId to disk") 
data match { 
case Left (elements) => 
diskStore.putArray (blockId, elements, level, returnValues = 
case Right (bytes) => 
diskStore.putBytes (blockId, bytes, level) 


} 
blockIsUpdated = true 


} 
// Actually drop from memory store 
val droppedMemorySize = 


ckld。 如 果 存 在 ， 从 Blocklnfo 中 获取 Block 的 StorageLevel。 


utArray 或 者 putBytes 方 法 ， 将 此 Block 存 入 硬盘 。 

















false) 


if (memoryStore.contains (blockId) ) memoryStore.getSize(blockId) else OL 


val blockIsRemoved = memoryStore. remove (blockId) 
if (blockIsRemoved) { 

blockIsUpdated = true 
else { 


} 
val status = getCurrentBlockStatus (blockId, info) 

if (info.tellMaster) { 

reportBlockStatus (blockId, info, status, droppedMemorySize) 


if (!level.useDisk) { 
// The block is completely gone from this node; forget it so we can 
blockInfo. remove (blockId) 


if (blockIsUpdated) { 
return Some (status) 





None 


48.2 ”状态 报告 方法 reportBlockStatus 








reportBlockStatus 用 于 向 BlockManagerMasterActor 报 告 Block 的 状态 并 且 


























logWarning(s"Block $blockId could not be dropped from memory as it does not exist") 


put() it again later. 


新 注册 BlockManager。reportBlockstatus 的 实现 见 代码 清单 4-32。 它 的 处 理 步 又 如 下 。 











1) 调用 tryToReportBlockStatus 方 法 ，tryToReportBlockSstatus 调 用 了 BlockManagerMaster 的 updateBlocklnfo 方 法 向 BlockManagerMasterActor 发 送 UpdateBlocklnfo 消 息 更 新 Block 占 上 














存 大 小 、 磁 盘 大 小 、 存 储 级 别 等 信息 。 






































2) 如 果 BlockManager 还 没有 向 BlockManagerMasterActor 注 册 ， 则 调用 asyncReregister 方 法 ，asyncReregister 调 用 了 reregister， 最 后 reregister 实 际 调 
registerBlockManager 方 法 和 reportAllBlocks 方 法 ，reportAllBlocks 方 法 实际 也 是 调用 了 tryToReportBlockStatus。 

















代码 清单 4-32 ”状态 报告 的 实现 


private def reportBlockStatus (blockId: BlockId, info: BlockInfo, 
status: BlockStatus, droppedMemorySize: Long = OL): Unit = { 











val needReregister = !tryToReportBlockStatus(blockId, info, status, droppedMemorySize) 


if (needReregister) { 
logInfo(s"Got told to re-register updating block $blockId") 

















J BlockManagerMasterfy 


reportBlockStatus 方 法 给 BlockManagerMasterActor 报 告状 态 。report-BlockStatus 在 


的 内 


asyncReregister () 
logDebug(s"Told master about block $blockId") 


private def tryToReportBlockStatus (blockId: BlockId, info: BlockInfo, 
status: BlockStatus, droppedMemorySize: Long = OL): Boolean = { 
if (info.tellMaster) { 
val storageLevel = status.storageLevel 
val inMemSize = Math.max(status.memSize, droppedMemorySize) 
val inTachyonSize = status.tachyonSize 
val onDiskSize = status.diskSize 
master.updateBlockInfo ( 
blockManagerId, blockId, storageLevel, inMemSize, onDiskSize, inTachyonSize) 
} else { 
true 
} 
} 
def reregister(): Unit = { 
logInfo ("BlockManager re-registering with master") 
master. registerBlockManager (blockManagerId, maxMemory, slaveActor) 


reportAl1Blocks () 
private def asyncReregister(): Unit = { 
asyncReregisterLock.synchronized { 
if (asyncReregisterTask == null) { 
asyncReregisterTask = Future[Unit] { 
reregister () 


asyncReregisterLock.synchronized { 
asyncReregisterTask = null 
} 





RegisterBlockManager 消 息 的 处 理 已 在 4.3 节 介绍 过 ， 不 再 歼 述 。 我 们 来 看 看 Block-ManagerMaster 的 updateBlockInfo， 代 码 如 下 。 





val res = askDriverWithReply [Boolean] ( 

UpdateBlockInfo (blockManagerId, blockId, storageLevel, memSize, diskSize, tachyonSize) ) 
logInfo ("Updated info of block " + blockId) 
res 


























从 上 面 updateBlocklnfo 方 法 的 实现 中 发 现 它 也 调用 了 我 们 熟悉 的 askDriverWithReply 方 法 ， 只 不 过 消息 是 UpdateBlocklnfo。BlockManagerMasterActor 接 收 后 会 调用 updateBlocklnfo 方 法 更 新 
blockManagerlnfo 及 blockLocations 等 信息 ， 比 较 简单 ， 读 者 可 自行 分 析 。 如 果 不 熟悉 askDriverWithReply， 可 以 回顾 4.3.2 节 。 





4.8.3 ” 单 对 象 块 写 入 方法 putSingle 


























putSingle 方 法 用 于 将 由 一 个 对 象 构成 的 Block 写 入 存储 系统 。putSingle 经 过 层 层 调用 ， 实 际 调用 了 doPut 方 法 ， 见 代码 清单 4-33。doPut 方 法 将 在 4.8.5 节 说 明 。 





























代码 清单 4-33 ”putSingle 的 实现 





def putSingle( 
blockId: BlockId, 
value: Any, 
level: StorageLevel, 
tellMaster: Boolean = true): Seq[(BlockId, BlockStatus)] = { 
putIterator (blockId, Iterator (value), level, tellMaster) 


} 
def putIterator ( 
blockId: BlockId, values: Iterator[Any], level: StorageLevel, 
tellMaster: Boolean = true, 
effectiveStorageLevel: Option[StorageLevel] = None): Seg[(BlockId, BlockStatus)] = { 
require(values != null, "Values is null") 
doPut (blockId, IteratorValues (values), level, tellMaster, effective-StorageLevel) 





48.4 序列 化 字 节 块 写 入 方法 putBytes 




















putBytes 方 法 用 于 将 序列 化 字 节 组 成 的 Block 写 入 存储 系统 ，putBytes 实 际 也 调用 了 doPut 方 法 ， 见 代码 清单 4-34。 














代码 清单 4-34 ”putBytes 的 实现 





def putBytes ( 
blockId: BlockId, 
bytes: ByteBuffer, 
level: StorageLevel, 
tellMaster: Boolean = true, 
effectiveStorageLevel: Option[StorageLevel] = None): Seqg[(BlockId, BlockStatus)] = { 
require (bytes != null, "Bytes is null") 
doPut (blockId, ByteBufferValues (bytes), level, tellMaster, effective-StorageLevel) 





48.5 ”数据 写 入 方法 doPut 














putSingle、putBytes 等 方法 真正 的 数据 写 入 实际 由 doPut 实 现 ，doPut 的 处 理 流程 如 图 4-7 所 示 。 





创建 BlockJnfo 
放 和 人 缓存 


获取 缓存 的 
BlockInfo 


图 4-7 ”doPut 的 处 理 流程 


doPut 的 处 理 步骤 如 下 。 








1) 获取 putBlocklnfo。 如 果 blocklnfo 中 已 经 缓存 了 Blocklnfo， 则 使 用 缓存 的 Blocklnfo， 否 则 使 用 新 建 的 Blocklnfo。 获 取 PutBlocklnfo 的 实现 ， 见 代码 清单 4-35。 














代码 清单 4-35 ”获取 putBlocklnfo 的 代码 实现 





val updatedBlocks = new ArrayBuffer[(BlockId, BlockStatus) ] 
val putBlockInfo = { 
val tinfo = new BlockInfo(level, tellMaster) 
// Do atomically ! 
val oldBlockOpt = blockInfo.putIfAbsent (blockId, tinfo) 
if (oldBlockOpt.isDefined) { 
if (oldBlockOpt.get.waitForReady()) { 
logWarning(s"Block $blockId already exists on this machine; not re-adding it") 
return updatedBlocks 


} 

oldBlockOpt .get 
} else { 

tinfo 
} 





2) 获取 块 最 终 使 用 的 存储 级 别 putLevel， 根 据 putLeve| 判 断 块 写 入 的 BlockStore， 从 代码 清单 4-36 可 以 看 出 ， 
分 别 调用 BlockStore 不 同 的 方法 ， 如 putlterator、putArray、putBytes 等 。 


代码 清单 4-36 ”获取 块 最 终 使 用 的 存储 级 别 


优先 使 用 MemoryStore， 其 次 是 TachyonStore 和 DiskStore。 依 据 data 的 实际 包装 类 





// The level we actually use to put the block 
val putLevel = effectiveStorageLevel .getOrElse (level) 
val (returnValues, blockStore: BlockStore) = { 
if (putLevel.useMemory) { 
// Put it in memory first, even if it also has useDisk set to true; 
// We will drop it to disk later if the memory store can't hold it. 
(true, memoryStore) 
} else if (putLevel.useOffHeap) { 
// Use tachyon for off-heap storage 
(false, tachyonStore) 
} else if (putLevel.useDisk) { 
// Don't get back the bytes from put unless we replicate them 
(putLevel.replication > 1, diskStore) 
} else { 
assert (putLevel == StorageLevel .NONE) 
throw new BlockException ( 
blockId, s"Attempted to put block $blockId without specifying storage level!") 
} 


} 
// Actually put the values 
val result = data match { 
case IteratorValues (iterator) => 
blockStore.putIterator (blockId, iterator, putLevel, returnValues) 
case ArrayValues (array) => 
blockStore.putArray(blockId, array, putLevel, returnValues) 
case ByteBufferValues (bytes) => 
bytes. rewind () 
blockStore.putBytes (blockId, bytes, putLevel) 
} 
size = result.size 
result.data match { 
case Left (newIterator) if putLevel.useMemory => valuesAfterPut = newIterator 
case Right (newBytes) => bytesAfterPut = newBytes 
case _ => 





3) 写 入 完毕 后 ,将 写 入 操作 导致 从 内存 drop 掉 的 Block 更 新 到 updatedBlocks: Array-Buffer[ (Blockld, BlockStatus) ] 中 。 使 用 getCurrentBlockSstatus 获 取 写 入 Block 的 状态 。 将 putBlocklnfo 设 


























置 为 允许 其 他 线程 读 取 ， 调 用 reportBlockStatus 将 当前 Block 的 信息 更 新 到 BlockManagerMasterActor， 最 后 将 putBlocklnfo 添 加 到 updatedBlocks 中 ， 见 代码 清单 4-37。updatedBlocks 中 的 Block 的 状 
态 由 于 都 发 生 了 变化 ， 所 以 都 需要 向 BlockManagerMasterActor 发 送 updateBlocklnfo 消 息 。 





代码 清单 4-37 ”整理 需要 更 新 的 Block 





// Keep track of which blocks are dropped from memory 
if (putLevel.useMemory) { 

result .droppedBlocks.foreach { updatedBlocks += _ } 
} 
val putBlockStatus = getCurrentBlockStatus (blockId, putBlockInfo) 
if (putBlockStatus.storageLevel != StorageLevel.NONE) { 

marked = true 

putBlockInfo.markReady (size) 

if (tellMaster) { 

reportBlockStatus (blockId, putBlockInfo, putBlockStatus) 


} 
updatedBlocks += ((blockId, putBlockStatus) ) 











4) 如 果 putLevel.replication 大 于 1， 即 为 了 容错 考虑 ， 数 据 的 备份 数量 大 于 1 的 时 候 ， 需 要 将 Block 的 数据 备份 到 其 他 节点 上 ， 见 代码 清单 4-38。 备 份 工作 由 replicate 完 成 ， 请 阅读 4.8.6 节 。 


代码 清单 4-38 ”Block 的 备份 





if (putLevel.replication > 1) { 
data match { 
case ByteBufferValues (bytes) => 
if (replicationFuture != null) { 
Await.ready(replicationFuture, Duration. Inf) 
} 
case _ => 
val remoteStartTime = System.currentTimeMillis 
// Serialize the block if not already done 
if (bytesAfterPut == null) { 
if (valuesAfterPut == null) { 
throw new SparkException ( 
"Underlying put returned neither an Iterator nor bytes! This shouldn't happen.") 
} 
bytesAfterPut = dataSerialize (blockId, valuesAfterPut) 
} 
replicate (blockId, bytesAfterPut, putLevel) 
logDebug ("Put block %s remotely took %s" 
. format (blockId, Utils.getUsedTimeMs (remoteStartTime) ) ) 
} 
} 
BlockManager .dispose (bytesAfterPut) 
updatedBlocks 





48.6 ”数据 块 备份 方法 replicate 





在 介绍 replicate 方 法 之 前 ， 先 对 其 中 的 一 些 定义 进行 解释 ， 见 表 4-3。 
#A-3 teplicate 中 的 定义 
变 量 名 << X 
maxReplicationFailures 最 大 复制 失败 次 数 


numPeersToReplicateTo 需要 复制 的 备份 数 

peersForReplication 可 以 作为 备份 的 BlockManager 的 缓存 
peersReplicatedTo 已 经 作为 备份 的 BlockManager 的 缓存 
peersFailedToReplicateTo 已 经 复制 失败 的 BlockManager 的 缓存 


replicationFailed 标记 复制 是 否 失 败 
failures 复制 失败 次 数 
done 标记 复制 是 否 完 成 





为 了 容 灾 ，peersForReplication 中 缓存 的 BlockManager 不 应 当 是 当前 的 BlockManager。 获 取 其 他 所 有 BlockManager 的 方法 是 getPeers， 见 代码 清单 4-39。getPeers 方 法 中 的 定义 见 表 4-4。 


代码 清单 4-39 getPeers 的 实现 





private def getPeers (forceFetch: Boolean): Seq[BlockManagerId] = { 
peerFetchLock.synchronized { 
val cachedPeersTtl = conf.getInt ("spark.storage.cachedPeersTtl", 60 * 1000) // milliseconds 
val timeout = System.currentTimeMillis - lastPeerFetchTime > cachedPeersTtl 
if (cachedPeers == null || forceFetch || timeout) { 
cachedPeers = master.getPeers (blockManagerId) .sortBy(_.hashCode) 
lastPeerFetchTime = System.currentTimeMillis ~ 
logDebug ("Fetched peers from master: " + cachedPeers.mkString("(", ",", "]")) 
} 


cachedPeers 





#44 ”getPeers 方 法 中 的 定义 


变 量 名 


cachedPeers: Seq[BlockManagerId] 当前 BlockManager 缓存 的 BlockManagerld 








cachedPeers 缓存 的 超时 时 间 ， 默 认为 60 秒 ， 可 以 修改 属性 spark.storage. 
cachedPeersTtl 


cachedPeersTtl 改变 大 小 


forceFetch 








当 cachedPeers 为 空 或 者 forceFetch 为 true 或 者 当前 时 间 超时 ， 则 会 调 














BlockManagerMaster 的 getPeers 方 法 也 调用 了 我 们 熟悉 的 askDriverWithReply， 代 码 如 下 。 


标记 是 否 强制 从 BlockManagerMasterActor 获取 最 新 的 BlockManagerld 


BlockManager-Master 的 getPeers 方 法 ， 从 BlockManagerMasterActor 获 取 最 新 的 BlockManagerld。 





def getPeers (blockManagerId: BlockManagerId): Seq[BlockManagerId] = { 
askDriverWithReply[Seq[BlockManagerId] ] (GetPeers (blockManager1d) ) 
} 





Block ManagerMasterActor 








BlockManagerld 都 返回 ， 见 代码 清单 4-40。 











代码 清单 4-40 ”BlockManagerMasterActor.getPeers 的 实现 


匹配 GetPeers 消 息 将 执行 getPeers 方 法 ，getPeers 从 block-Managerlnfo 中 过 滤 掉 Driver 的 BlockManager 和 当前 的 Executor 的 BlockManager， 将 其 余 的 





private def getPeers (blockManagerId: BlockManagerId): Seq[BlockManagerId] = { 
val blockManagerIds = blockManagerInfo.keySet 
if (blockManagerIds.contains (blockManagerId)) { 


} else { 


blockManagerlds.filterNot { _.isDriver }.filterNot { _ == blockManagerId }.toSeq 


Seq.empty 
} 











replicate 方 法 的 实现 见 代码 清单 4-41。replicate 有 个 内 部 函数 getRandompPeer， 








于 随机 获取 BlockManagerld。 由 于 random: Random (blockld.hashCode) 使 























blockld 的 哈 希 值 ， 这 样 就 保证 


在 同一 个 节点 上 多 次 尝试 复制 同一 个 Block， 保 证 它 始终 被 复制 到 同一 批 节点 上 。 特 别 注意 的 是 ， 当 复制 失败 并 且 再 次 尝试 时 ， 会 强制 从 BlockManagerMasterActor 获 取 所 有 最 新 的 BlockManagerld。 并 








且 从 peersForReplication 中 排除 peersReplicatedTo 和 peersFailed-ToReplicateTo, 四 








排除 已 经 使 





代码 清单 4-41 replicate 方 法 的 实现 





和 已 经 复制 失败 的 BlockManager 的 BlockManagerld。 





private def replicate (blockId: BlockId, data: ByteBuffer, level: StorageLevel): Unit 
// 常量 、 变 量 定义 省 略 
val random = new Random (blockId.hashCode) 
def getRandomPeer () : Option[BlockManagerId] = { 
if (replicationFailed) { 
peersForReplication.clear () 
peersForReplication ++= getPeers (forceFetch = true) 
peersForReplication --= peersReplicatedTo 
peersForReplication --= peersFailedToReplicateTo 


if (!peersForReplication.isEmpty) { 


Some (peersForReplication (random.nextInt (peersForReplication.size) )) 
} else { 


None 


} 








现在 我 们 正式 讲解 备份 复制 的 过 程 ， 见 代码 清单 4-42。 通 过 | 


网 











4-8 能 够 帮助 我 们 理解 其 处 理 步 又。 





[开始 复制 ] 













获取 随机 的 
BlockManager 


失败 达到 最 
次 数 ? 










有 可 以 备份 的 
BlockManager? 


[是 ] 


增加 失败 次 数 
[有 ] 


上 传 Block 到 | 


BlockManager 

















4-8 ”Block 备 份 复制 的 过 程 


代码 清单 4-42 ”备份 复制 的 实现 





while (!done) { 
getRandomPeer() match { 
case Some(peer) => 
try { 

val onePeerStartTime = System.currentTimeMillis 

data. rewind () 

logTrace(s"Trying to replicate $blockId of ${data.limit()} bytes to Speer") 

blockTransferService.uploadBlockSync ( 

peer.host, peer.port, peer.executorId, blockId, new NioManaged-Buffer (data), tLevel) 

logTrace(s"Replicated $blockId of ${data.limit()} bytes to $peer in %s ms" 
. format (System.currentTimeMillis - onePeerStartTime) ) 

peersReplicatedTo += peer 

peersForReplication -= peer 

replicationFailed = false 

if (peersReplicatedTo.size == numPeersToReplicateTo) { 
done = true // specified number of peers have been replicated to 

} 

} catch { 

case e: Exception => 
logWarning(s"Failed to replicate $blockId to $peer, failure #$failures", e) 
failures += 1 
replicationFailed = true 
peersFailedToReplicateTo += peer 
if (failures > maxReplicationFailures) { // too many failures in replcating to peers 

done = true 


} 


case None => // no peer left to replicate to 
done = true 





从 replicate 的 代码 实现 ， 总 结 复制 的 过 程 如 下 。 











1) 调用 getRandomPeer 随 机 获取 BlockManager。 








2) 上 传 Block 到 BlockManager。 


3) 如 果 上 传 成 功 ， 则 将 此 BlockManager 添 加 到 peersReplicatedTo， 而 从 peersFor-Replication 中 移 除 ， 设 置 replicationFailed 等 于 false，done 等 于 true; 如 果 上 传 过 程 出 现 异常 ， 则 将 此 











BlockManager 添 加 到 peersFailedToReplicateTo，failures 自 增 ， 设 置 replicationFailed 等 于 true，done 等 于 false。 

















如 果 上 传 失败 ， 以 上 过 程 会 迭代 多 次 ， 直 到 失败 次 数 failures 超 过 最 大 失败 次 数 maxRep-licationFailures。 

















异步 上 传 方法 uploadBlockSync 实 际 是 通过 调用 blockTransferService.uploadBlock 来 完成 的 ， 代 码 如 下 。NettyBlockTransferService 的 uploadBlock 方 法 已 在 4.2.6 节 介绍 过 。 








def uploadBlockSync (hostname: String, port: Int, execId: String, blockId: BlockId, 
blockData: ManagedBuffer, level: StorageLevel): Unit = { 
Await.result (uploadBlock (hostname, port, execId, blockId, blockData, level), Duration. Inf) 





4.8.7 ”创建 DiskBlockObjectWriter 的 方法 getDiskWriter 




















getDiskWriter 用 于 创建 DiskBlockObjectWriter， 见 代码 清单 4-43。 属 性 spark.shuffle.sync 决 定 写 操作 是 同步 还 是 异步 。 其 中 有 关 wrapForCompression 方 法 的 内 容 请 阅读 4.8.12 节 。 





代码 清单 4-43 ”创建 DiskBlockObjectWriter 





def getDiskWriter ( 

blockId: BlockId, 
file: File, 
serializer: Serializer, 
bufferSize: Int, 
writeMetrics: ShuffleWriteMetrics): BlockObjectWriter = { 

val compressStream: OutputStream => OutputStream = wrapForCompression (blockId, _) 

val syncWrites = conf.getBoolean("spark.shuffle.sync", false) T 

new DiskBlockObjectWriter (blockId, file, serializer, bufferSize, compressStream, syncWrites, 
writeMetrics) 





4.8.8 获取 本 地 Block 数 据 方 法 getBlockData 








getBlockData 用 于 从 本 地 获取 Block 的 数据 ， 见 代码 清单 4-44。 














代码 清单 4-44 ”从 本 地 获取 Block 





override def getBlockData (blockId: BlockId): ManagedBuffer = { 
if (blockId.isShuffle) { 
shuffleManager.shuffleBlockManager.getBlockData (blockId.asInstanceOf [ShuffleBlockId]) 
} else { 
val blockBytesOpt = doGetLocal (blockId, asBlockResult = false) 
.asInstanceOf [Option [ByteBuffer] ] 
if (blockBytesOpt.isDefined) { 
val buffer = blockBytesOpt.get 
new NioManagedBuf fer (buffer) 
} else { 
throw new BlockNotFoundException (blockId.toString) 
} 





getBlockData 的 处 理 实现 如 下 。 


1) 如 果 Block 是 ShuffleMapTask 的 输出 ， 那 么 多 个 partition 的 中 间 结 果 都 写 入 了 同一 个 文件 ， 怎 样 读 取 不 同 partition 的 中 间 结 果 ? IndexShuffleBlockManager 的 getBlockData 方 法 解决 了 这 个 问 
题 ， 请 阅读 4.13 节 。 








2) 如 果 Block 是 ResultTask 的 输出 ， 则 使 用 doGetLocal 来 获取 本 地 中 间 结 果 数 据 ， 请 参阅 4.8.9 节 。 








4.8.9 ”获取 本 地 shuffle 数 据 方法 doGetLocal 


当 reduce 任 务 与 mnap 任 务 处 于 同一 节点 时 ， 不 需要 远程 拉 取 ， 只 需 调 取 doGetLocal 方 法 从 本 地 获取 中 间 处 理 结 果 即 可 。doGetLocal 的 实现 见 代码 清单 4-45， 其 处 理 步骤 如 下 : 














1) 如 果 Block 人 允许 使 用 内 存 ， 则 调用 MemoryStore 的 getValues 或 者 getBytes 方 法 获取 。getValues 和 getBytes 参 阅 4.6 节 。 











2) 如 果 Block 人 允许 使 用 Tachyon， 则 调用 TachyonStore 的 getBytes 方 法 获取 ， 请 参阅 4.7.4 节 。 






































3) 如 果 Block 人 允许 使 用 DiskStore， 则 调用 DiskStore 的 getBytes 方 法 获取 ， 请 参阅 4.5.1 节 。 


代码 清单 4-45 ”doGetLocal 的 实现 





private def doGetLocal (blockId: BlockId, asBlockResult: Boolean): Option[Any] = { 
val info = blockInfo.get (blockId) .orNull 
if (info != null) { 
info.synchronized { 
// 省 略 部 分 代码 
// Look for the block in memory 
if (level.useMemory) { 
logDebug(s"Getting block $blockId from memory") 
val result = if (asBlockResult) { 
memoryStore.getValues (blockId) .map (new BlockResult (_, DataReadMethod.Memory, info.size)) 
} else { 
memoryStore.getBytes (blockId) 


result match { 
case Some(values) => 
return result 
case None => 
logDebug(s"Block $blockId not found in memory") 
} 


i 
// Look for the block in Tachyon 
if (level.useOffHeap) { 
logDebug(s"Getting block $blockId from tachyon") 
if (tachyonStore.contains (blockId)) { 
tachyonStore.getBytes (blockId) match { 
case Some (bytes) => 
if (!asBlockResult) { 
return Some (bytes) 
} else { 
return Some (new BlockResult ( 
dataDeserialize(blockId, bytes), DataReadMethod.Memory, info.size) ) 
} 
case None => 
logDebug(s"Block $blockId not found in tachyon") 
} 
} 


} 
// Look for block on disk, potentially storing it back in memory if required 
if (level.useDisk) { 
logDebug(s"Getting block $blockId from disk") 
val bytes: ByteBuffer = diskStore.getBytes (blockId) match { 
case Some(b) => b 
case None => 
throw new BlockException ( 
blockId, s"Block $blockId not found on disk, though it should be") 


assert (0 == bytes.position()) 
// 次 要 代码 此 处 省 略 





4.8.10 ”获取 远程 Block 数 据 方法 doGetRemote 


doGetRemote 用 于 从 远 端 节点 上 获取 Block 数 据 ， 








见 代码 清单 4-46。 其 处 理 步骤 如 下 : 


1) 向 BlockManagerMasterActor 发 送 GetLocations 消 息 获 取 Block 数 据 存储 的 Block-Managerld。 如 果 Block 数 据 复制 份 数 多 于 1 个 ， 则 会 返回 多 个 BlockManagerld， 对 这 些 Block-Managerld 洗 


牌 ,避免 总 是 从 一 个 远程 BlockManager 获 取 Block 数 提 

















居 。 发 送 GetLocations 消 息 使 











了 getLocations 方 法 ， 代 码 如 下 。 





def getLocations (blockId: BlockId): Seq[Bloc 
askDriverWithReply[Seq[BlockManagerId]] ( 
} 


kManagerId] = { 
GetLocations (blockId) ) 














2) 根据 返回 的 BlockManagerld 信 息 ， 使 用 BlockTransferService 远 程 同 步 获 取 Block 数 据 。 














代码 清单 4-46 ”获取 远程 Block 数 据 





private def doGetRemote (blockId: BlockId, asBlockResult: Boolean): Option[Any] = { 


require (blockId != null, "BlockId is nul 
val locations = Random. shuffle (master.ge 
for (loc <- locations) { 
logDebug(s"Getting remote block $blo 
val data = blockTransferService. fetcl 
loc.host, loc.port, loc.executor. 
if (data != null) { 
if (asBlockResult) { 
return Some (new BlockResult ( 
dataDeserialize (blockId, 
DataReadMethod.Network, 
data.limit())) 
} else { 
return Some (data) 
} 
} 
logDebug (s"The value of block $block: 


} 
logDebug(s"Block $blockId not found") 
None 


1") 
tLocations (blockId) ) 


ckId from $loc") 
hBlockSync ( 
Id, blockId.toString) .nioByteBuffer () 


data), 


Id is null") 





4.8.11 获取 Block 数 据 方法 get 








get 方 法 用 于 通过 Blockld 获 取 Block。get 方 法 在 实现 上 首先 从 本 地 获取 ， 如 果 没有 则 去 远程 获取 ， 见 代码 清单 4-47。 








代码 清单 4-47 ”get 方法 的 实现 





def get (blockId: BlockId): Option[BlockResul 

val local = getLocal (blockId) 

if (local.isDefined) { 
logInfo(s"Found block $blockId local. 
return local 

} 

val remote = getRemote (blockId) 

if (remote.isDefined) { 
logInfo(s"Found block $blockId remot 
return remote 

} 


None 


t= 


1y") 


ely") 











getLoca| 方 法 实际 调用 了 doGetLocal 方 法 ， 代 码 如 下 。 











def getLocal (blockId: BlockId): Option[BlockResult] = { 


logDebug(s"Getting local block $blockId" 
doGetLocal (blockId, asBlockResult = true 




















) 
) -asInstanceOf [Option [BlockResult] ] 





getRemote 方 法 实际 调用 了 doGetRemote 方 法 ， 代 码 如 下 。 
def getRemote (blockId: BlockId): Option[BlockResult] = { 


logDebug(s"Getting remote block $blockId") 
doGetRemote (blockId, asBlockResult = true) .asInstanceOf [Option [BlockResult] ] 





48.12 ”数据 流 序 列 化 方法 dataSerializeStream 








如 果 写 入 存储 体系 的 数据 本 身 是 序列 化 的 ， 那 么 读 取 时 应 该 对 其 反 序列 化 。data-SerializeStream 方 法 使 


compressionCodec 的 代码 分 析 见 4.11 节 。 


代码 清单 4-48 dataserializestream 的 实现 























compressionCodec 对 文件 输入 流 进 行 压 缩 和 序列 化 处 理 ， 见 代码 清单 4-48。 





def dataSerializeStream ( 
blockId: BlockId, 
outputStream: OutputStream, 
values: Iterator [Any], 
serializer: Serializer = defaultSeri 


alizer): Unit = { 


val byteStream = new BufferedOutputStream (outputStream) 


val ser = serializer.newInstance () 


ser.serializeStream(wrapForCompression (blockId, byteStream) ) .writeAll (values) .close() 


} 
def wrapForCompression (blockId: BlockId, s: 


OutputStream): OutputStream = { 


if (shouldCompress (blockId)) compressionCodec.compressedOutputStream(s) else s 


} 





4.9 metadataCleaner 和 broadcastCleaner 














为 了 有 效 利 用 磁盘 空间 和 内 存 ，metadataCleaner 和 broadcastCleaner 分 别 用 于 清除 blocklnfo (TimeStampedHashMap|Blockld, BlockInfo]) 中 很 久 不 用 的 非 广播 和 广播 Block 信 息 。 




















Ors 
此 处 的 metadataCleanet 与 3.3 节 介绍 的 metadataCleanet 命 名 相同 ， 作 用 却 不 一 样 ， 读 者 不 要 混 消 。 


3.3 节 中 已 经 介绍 过 metadataCleaner， 由 此 知道 每 个 metadataCleaner 的 关键 在 于 函数 参数 cleanupFunc: (Long) =>Unit。 此 处 的 metadataCleaner 的 函数 参数 是 dropOldNonBroadcast- 
Blocks，broadcastCleaner 的 函数 参数 是 dropOldBroadcastBlocks。 





private def dropOldNonBroadcastBlocks (cleanupTime: Long): Unit = { 
logInfo(s"Dropping non broadcast blocks older than $cleanupTime") 
dropOldBlocks (cleanupTime, !_.isBroadcast) 

} 

private def dropOldBroadcastBlocks (cleanupTime: Long): Unit = { 
logInfo(s"Dropping broadcast blocks older than $cleanupTime") 
dropOldBlocks (cleanupTime, _.isBroadcast) 
































这 两 个 函数 都 调用 了 dropOldBlocks，dropOldBlocks 的 实现 见 代 码 清单 4-49。 遍 历 blocklnfo， 将 很 久 不 用 的 Block 从 MemoryStore、DiskStore、TachyonStore 中 清除 。 





代码 清单 4-49 ”删除 很 久 不 用 的 Block 





private def dropOldBlocks (cleanupTime: Long, shouldDrop: (BlockId => Boolean)): Unit = { 
val iterator = blockInfo.getEntrySet.iterator 
while (iterator.hasNext) { 
val entry = iterator.next () 
val (id, info, time) = (entry.getKey, entry.getValue.value, entry.getValue.timestamp) 
if (time < cleanupTime && shouldDrop(id)) { 
info.synchronized { 
val level = info.level 
if (level.useMemory) { memoryStore.remove(id) } 
if (level.useDisk) { diskStore.remove(id) } 
if (level.useOffHeap) { tachyonStore.remove(id) } 
iterator. remove () 
logInfo(s"Dropped block $id") 


val status = getCurrentBlockStatus (id, info) 
reportBlockStatus (id, info, status) 





4.10 ”缓存 管理 器 CacheManager 























CacheManager 用 于 缓存 RDD 某 个 分 区 计算 后 的 中 间 结 果 。 读 者 可 能 误 以 为 RDD 都 缓存 在 CacheManager 的 某 个 存储 部 分 中 ， 实 际 上 CacheManager 只 是 对 BlockManager 的 代理 ， 真 正 的 缓存 依然 
使 用 BlockManager。 在 任务 迭代 计算 的 过 程 中 ， 当 判断 存储 级 别 使 用 了 缓存 ， 就 会 调用 CacheManager 的 getOrCompute 方 法 。getOrCompute 的 实现 见 代 码 清单 4-50。 














代码 清单 4-50 ”getOrCompute 的 实现 


def getOrCompute [T] ( 
rdd: RDD[T], 
partition: Partition, 
context: TaskContext, 
storageLevel: StorageLevel): Iterator[T] = { 
val key = RDDBlockId(rdd.id, partition.index) 
logDebug(s"Looking for partition $key") 
blockManager.get (key) match { 
case Some (blockResult) => 
// Partition is already materialized, so just return its values 
context .taskMetrics.inputMetrics = Some (blockResult.inputMetrics) 
new InterruptibleIterator (context, blockResult.data.asInstanceOf [Iterator [T]]) 
case None => 
// Acquire a lock for loading this partition 
// If another thread already holds the lock, wait for it to finish return its results 
val storedValues = acquireLockForPartition|[T] (key) 
if (storedValues.isDefined) { 
return new InterruptibleIterator[T] (context, storedValues.get) 


// Otherwise, we have to load the partition ourselves 
try { 
logInfo(s"Partition $key not found, computing it") 
val computedValues = rdd.computeOrReadCheckpoint (partition, context) 
// If the task is running locally, do not persist the result 
if (context.isRunningLocally) { 
return computedValues 


// Otherwise, cache the values and keep track of any updates in block statuses 
val updatedBlocks = new ArrayBuffer[(BlockId, BlockStatus) ] 
val cachedValues = putInBlockManager (key, computedValues, storageLevel, updatedBlocks) 
val metrics = context.taskMetrics 
val lastUpdatedBlocks = metrics.updatedBlocks.getOrElse (Seq[ (BlockId, BlockStatus) ] ()) 
metrics.updatedBlocks = Some (lastUpdatedBlocks ++ updatedBlocks.toSeq) 
new InterruptibleIterator (context, cachedValues) 
} finally { 
loading.synchronized { 
loading. remove (key) 
loading.notifyAl11 () 








从 getOrCompute 的 实现 分 析 其 处 理 逻 辑 如 下 ; 


1) 从 存储 体系 获取 Block; 











2) 如 果 确 实 获取 到 了 Block， 那 么 将 它 封 装 为 Interruptiblelterator 并 返回 。 如 果 还 没有 缓存 Block， 则 重新 计算 或 者 从 CheckPoint 中 获取 数据 ， 并 调用 putlnBlockManager 方 法 将 数据 写 入 缓存 后 者 
装 为 Interruptiblelterator 并 返回 。 其 中 RDD 的 computeOrReadCheckpoint 方 法 将 在 6.1 节 说 明 。 























putinBlockManager 的 实现 见 代 码 清单 4-51。 





代码 清单 4-51 ”putinBlockManager 的 实现 


private def putInBlockManager[T] ( 
key: BlockId, 


values: Iterator[T], 
level: StorageLevel, 
updatedBlocks: ArrayBuffer[(BlockId, BlockStatus) ], 
effectiveStorageLevel: Option[StorageLevel] = None): Iterator[T] = { 
val putLevel = effectiveStorageLevel .getOrElse (level) 
if (!putLevel.useMemory) { 
updatedBlocks ++= 
blockManager.putIterator (key, values, level, tellMaster = true, effectiveStorageLevel) 
blockManager.get (key) match { 
case Some(v) => v.data.asInstanceOf[Iterator[T] ] 
case None => 
logInfo(s"Failure to store $key") 


throw new BlockException(key, s"Block manager failed to return cached value for $key!") 


} 
} else { 
blockManager.memoryStore.unrollSafely(key, values, updatedBlocks) match { 
case Left(arr) => 
// We have successfully unrolled the entire partition, so cache it in memory 
updatedBlocks ++= 
blockManager.putArray (key, arr, level, tellMaster = true, effectiveStorageLevel) 
arr.iterator.asInstanceOf [Iterator [T]] 
case Right (it) => 
// There is not enough space to cache this partition in memory 
val returnValues = it.asInstanceOf [Iterator [T]] 
if (putLevel.useDisk) { 
logWarning(s"Persisting partition $key to disk instead.") 
val diskOnlyLevel = StorageLevel (useDisk = true, useMemory = false, 
useOffHeap = false, deserialized = false, putLevel.replication) 
putInBlockManager[T] (key, returnValues, level, updatedBlocks, Some (diskOnlyLevel) ) 
} else { 
returnValues 


} 





从 putinBlockManager 的 实现 ， 总 结 它 的 处 理 步骤 如 下 。 


1) 获取 实际 的 存储 级 别 。 






































2) 如 果 存 储 级 别 不 允许 使 用 内 存 ， 那 么 直接 调用 BlockManager 的 putlterator 方 法 。 在 doPut 方 法 的 处 理 中 ， 由 于 存储 级 别 不 允许 使 用 内 存 ， 所 以 数据 实际 被 直接 写 入 了 磁盘 或 者 Tachyon。 





























3) 如 果 存 储 级 别人 允许 使 用 内 存 ， 那 么 首先 尝试 展开 。 如 果 展 开 成 功 ， 说 明 有 足够 内 存 可 以 存储 数据 ， 因 此 将 数 





4.11 ”压缩 算法 


























居 存 入 内 存 ; 如果 展 开 失 败 ， 则 将 数据 存 入 磁盘 。 














为 了 节省 磁盘 存储 空间 ， 有 些 情况 下 需要 对 Block 进 行 压缩 。 根 据 配置 属性 spark.io.compression.codec 来 确定 要 使 用 的 压缩 算法 (默认 为 snappy， 此 压缩 算法 在 牺牲 少量 压缩 比例 的 条 件 下 ， 却 极 大 


地 提高 了 压缩 速度 ) ， 并 生成 SnappyCompressionCodec 的 实例 ， 见 代码 清单 4-52。 





代码 清单 4-52 CompressionCodec 的 实现 











private[spark] object CompressionCodec { 
private val shortCompressionCodecNames = Map( 
"1z4" -> classOf [LZ4CompressionCodec] .getName, 
"lzf" -> classOf [LZFCompressionCodec] .getName, 
"snappy" -> classOf [SnappyCompressionCodec] .getName) 
def createCodec (conf: SparkConf): CompressionCodec = { 
createCodec (conf, conf.get ("spark.io.compression.codec", DEFAULT_COMPRESSION_CODEC) ) 
} 
def createCodec(conf: SparkConf, codecName: String): CompressionCodec = { 
val codecClass = shortCompressionCodecNames .getOrElse (codecName.toLowerCase, codecName) 
val ctor = Class.forName(codecClass, true, Utils.getContextOrSparkClassLoader) 
-getConstructor (classOf [SparkConf] ) 
ctor.newInstance (conf) .asInstanceOf [CompressionCodec] 


val DEFAULT_COMPRESSION_CODEC = "snappy" 
val ALL COMPRESSION_CODECS = shortCompressionCodecNames.values.toSeq 





412 ”磁盘 写 入 实现 DiskBlockObjectWriter 

















DiskBlockObjectWriter 被 有 








于 输出 Spark 任 务 的 中 间 计 算 结果 。DiskBlockObjectWriter 的 filesegment 方 法 上 














创建 文件 分 片 FileSegment (FileSegment 记 录 分 片 的 起 始 、 结 束 偏 移 量 ) ， 代 码 如 





Te 








override def fileSegment(): FileSegment = { 
new FileSegment (file, initialPosition, finalPosition - initialPosition) 


} 





下 面 我 们 逐个 讲解 DiskBlockObjectWriter 的 其 他 方法 ， 包 括 open、write、close、commit-AndClose。 


1. 打 开 一 个 文件 输出 流 








DiskBlockObjectWriter 的 open 方 法 ， 利 用 NIO、 压 缩 、 缓 存 、 序 列 化 方式 打开 一 个 文件 输出 流 ， 见 代码 清单 4-53。 











代码 清单 4-53 ”DiskBlockObjectWriter 的 open 方 法 





override def open(): BlockObjectWriter = { 
fos = new FileOutputStream(file, true) 
ts = new TimeTrackingOutputStream (fos) 
channel = fos.getChannel () 
bs = compressStream(new BufferedOutputStream(ts, bufferSize) ) 
objOut = serializer.newInstance() .serializeStream (bs) 
initialized = true 
this 





2. 写 入 文件 














DiskBlockObjectWriter 的 write 方法 用 于 将 数据 写 入 文件 ， 并 更 新 测量 信息 ， 见 代码 清单 4-54。 








代码 清单 4-54 DiskBlockObjectWriter 的 write 方法 


override def write (value: Any) { 
if (!initialized) { 
open () 


objOut .writeObject (value) 


if (writesSinceMetricsUpdate == 32) { 
writesSinceMetricsUpdate = 0 
updateBytesWritten () 

} else { 


writesSinceMetricsUpdate += 1 
} 
} 
private def updateBytesWritten() { 
val pos = channel .position() 
writeMetrics.shuffleBytesWritten += (pos - reportedPosition) 
reportedPosition = pos 





3. 关 闭 文件 输出 流 








DiskBlockObjectWriter 的 close 方 法 用 于 关闭 文件 输出 流 ， 并 更 新 测量 信息 ， 见 代码 清和 








代码 清单 4-55 ”关闭 文件 输出 流 


override def close() { 
if (initialized) { 
if (syncWrites) { 


// Force outstanding writes to disk and track how long it takes 


objOut. flush () 
def sync = fos.getFD. sync () 
callWithTiming (sync) 


} 
objOut .close () 
channel = null 


bs = null 
fos = null 
ts = null 


objOut = null 
initialized = false 
} 
} 
private def callWithTiming(f: => Unit) = { 
val start = System.nanoTime () 
£ 
writeMetrics.shuffleWriteTime += (System.nanoTime() - start) 








4 .缓存 数据 提交 





DiskBlockObjectWriter 的 commitAndClose 方 法 将 缓存 数据 写 入 磁盘 并 关闭 缓存 ， 然 后 更 新 测量 数 折 





代码 清单 4-56 ”commitAndClose 提 交 缓 存 数 据 





HH 








override def commitAndClose(): Unit = { 
if (initialized) { 
objOut . flush () 
bs. flush () 
close () 
} 
finalPosition = file.length() 


// In certain compression codecs, more bytes are written after close() is called 
writeMetrics.shuffleBytesWritten += (finalPosition - reportedPosition) 





4.13 tR285|shuffle@t228lndexShuffleBlockManager 


IndexSshuffleBlockManager 通 常用 于 获取 Block 索 引文 件 ， 并 根据 索引 文件 读 取 Block 文 件 的 数据 。 





1. 获 取 shuffle 文 件 方法 getBlockData 











有 时 候 我 们 不 知道 Block 的 Blockld， 所 以 无 法 使 用 BlockManager 的 get 方 法 获取 Block。 如 果 知道 ShuffleBlockld， 我 们 依然 可 以 通过 ShuffleBlockld 记 录 的 shuffleld 和 mapld 获 取 Block。 








ShuffleBlockld 的 格式 如 下 。 





case class ShuffleBlockId(shuffleId: Int, mapId: Int, reduceId: Int) extends BlockId { 


def name = "shuffle_" + shuffleId + "_" + mapId + "_" + reduceId 
} 





按照 此 格式 生成 的 ShuffleBlockld 能 够 关联 shuffleld、mapld 和 reduceld 的 信息 ， 例 如 ，shuffle 0 0 0、shuffle_ 0_1_0 等 。 


getBlockData 方 法 根据 shuffleld 和 mapld ( 即 partitionld) 读 取 索 引文 件 ， 从 索引 文件 中 获得 partition 计 算 中 间 结 果 写 入 文件 的 偏 移 量 和 中 间 结 果 的 大 小 ， 根 拉 


的 中 间 计 算 结果 ， 见 代码 清单 4-57。 





代码 清单 4-57 getBlockData 的 实现 











居 此 偏 移 量 和 大 小 读 取 文件 中 partition 





override def getBlockData (blockId: ShuffleBlockId): ManagedBuffer = { 


val indexFile = getIndexFile(blockId.shuffleId, blockId.mapId) 
val in = new DataInputStream(new FileInputStream (indexFile) ) 
try { 
ByteStreams.skipFully(in, blockId.reduceId * 8) 
val offset = in.readLong() 
val nextOffset = in.readLong() 
new FileSegmentManagedBuf fer ( 
transportConf, 
getDataFile (blockId.shuffleId, blockId.mapId), 
offset, 
nextOffset - offset) 
} finally { 
in.close() 





2. 获 取 shuffle 数 据 文件 方法 getDataFile 


getDataFile 的 实现 代码 如 下 。 





def getDataFile(shuffleId: Int, mapId: Int): File = { 
blockManager .diskBlockManager.getFile (ShuffleDataBlockId(shuffleId, mapId, 0)) 
} 





getDataFile 的 实质 是 调用 diskBlockManager 的 getFile 方 法 ， 请 参阅 4.4.2 节 。 


3. 索 引文 件 偏 移 量 记录 方法 writelndexFile 














writelndexFile 方 法 用 于 在 Block 索 引文 件 中 记录 各 个 partition 的 偏 移 量 信息 ， 便 于 下 游 Stage 的 任务 读 取 ， 见 代码 清单 4-58。 





代码 清单 4-58 ”索引 文件 写 入 方法 writelndexFile 





def writeIndexFile(shuffleId: Int，mapId: Int, lengths: Array[Long]) = { 
val indexFile = getIndexFile(shuffleId, mapId) 
val out = new DataOutputStream(new BufferedOutputStream(new FileOutput-—Stream (indexFile) ) ) 
try { 
var offset = OL 
out.writeLong (offset) 
for (length <- lengths) { 
offset += length 
out.writeLong (offset) 


} 
} finally { 
out.close() 


} 





4.14 shuffle 内存 管理 器 ShuffleMemoryManager 




















ShuffleMemoryManager 用 于 为 执行 shuffle 操 作 的 线程 分 配 内 存 池 。 每 种 磁盘 溢出 集合 (如 ExternalAppendOnlyMap 和 ExternalSorter) 都 能 从 这 个 内 存 池 获 得 内 存 。 当 溢出 集合 的 数据 已 经 输出 到 
存储 系统 ， 获 得 的 内 存 会 释放 。 当 线程 执行 的 任务 结束 ， 整 个 内 存 池 都 会 被 Executor 释 放 。ShuffleMemoryManager 会 保证 每 个 线程 都 能 合理 地 共享 内 存 ， 而 不 会 使 得 一 些 线程 获得 了 很 大 的 内 存 ， 导 致 
其 他 线程 经 常 不 得 不 将 溢出 的 数据 写 入 磁盘 。 





尝试 获得 内 存 方 法 tryToAcquire 














此 方法 用 于 当前 线程 尝试 获得 numBytes 大 小 的 内 存 ， 并 返回 实际 获得 的 内 存 大 小 ， 见 代码 清单 4-59。 


代码 清单 4-59 ”尝试 获得 内 存 的 实现 





def tryToAcquire (numBytes: Long): Long = synchronized { 
val threadId = Thread.currentThread() .getId 
assert (numBytes > 0, "invalid number of bytes requested: " + numBytes) 
if (!threadMemory.contains(threadId)) { 
threadMemory(threadId) = OL 
notifyAll() // Will later cause waiting threads to wake up and check numThreads again 


while (true) { 
val numActiveThreads = threadMemory.keys.size 
val curMem = threadMemory (threadId) 
val freeMemory = maxMemory - threadMemory.values.sum 


val maxToGrant = math.min(numBytes, math.max(0, (maxMemory / numActiveThreads) - curMem) ) 
if (curMem < maxMemory / (2 * numActiveThreads)) { 
if (freeMemory >= math.min(maxToGrant, maxMemory / (2 * numActive-Threads) - curMem)) { 


val toGrant = math.min(maxToGrant, freeMemory) 
threadMemory(threadId) += toGrant 
return toGrant 


} else { 
logInfo(s"Thread $threadId waiting for at least 1/2N of shuffle memory pool to be free") 
wait () 
} 
} else { 


// Only give it as much memory as is free, which might be none if it reached 1 / numThreads 
val toGrant = math.min(maxToGrant, freeMemory) 

threadMemory(threadId) += toGrant 

return toGrant 


} 


} 
OL // Never reached 


























根据 ShuffleMemoryManager 的 实现 ， 它 的 处 理 逻 辑 : 假设 当前 有 N 个 线程 ， 必 须 保证 每 个 线程 在 溢出 之 前 至 少 获得 x 的 内 存 ， 并 且 每 个 线程 最 多 获得 * 的 内 存 。 由 于 N 是 动态 变化 的 变量 ， 所 以 要 持续 
对 这 些 线程 进行 跟踪 ， 以 便 无 论 何 时 在 这 些 线程 发 生变 化 时 重新 按照 x 和 + 计算 。 





415 小结 











本 章 一 开始 介绍 了 BlockStore 的 接口 定义 ， 目 前 虽然 只 有 MemoryStore、DiskStore 和 TachyonStore 三 种 实现 ， 但 是 随 着 技术 的 发 展 ， 当 有 更 优秀 的 存储 中 间 件 出 现时 ， 随 时 可 以 实现 BlockStore， 完 
成 集成 (Tachyon 就 是 例子 ) 。DiskStore 对 磁盘 文件 按照 散 列 存储 节省 空间 的 同时 提高 了 文件 访问 的 效率 。MemoryStore 基 于 内 存 做 了 大 量 优化 ， 其 构建 的 内 存 模型 值得 任何 大 数据 存储 引擎 借鉴 。 
TachyonStore 解 决 了 Spark 中 共享 磁盘 文件 系统 性 能 差 、 计 算 引 擎 出 错 导 致 存储 体系 的 数据 丢失 、 内 存 中 大 量 重复 数据 导致 GC 时 间 长 等 问题 。 






































此 外 ，FileSegment 与 Block 索 引文 件 共同 解决 了 分 区 数据 读 写 同一 文件 的 问题 ; shuffle 服 务 基 于 Netty 实 现 的 Block 上 传 下 载 服务 ; shuffle 任 务 通过 (=, +) 的 区 间 管 理 获得 内 存 的 大 小 保证 每 个 线程 
都 能 合理 地 共享 内 存 并 减少 磁盘 1/O 操 作 ; Executor 的 BlockManager 与 Driver 的 BlockManager 上 的 BlockManagerMasterActor 在 ActorSystem 中 通信 ， 保 证 Driver 获 取 实 时 的 Block 状 态 信息 的 实现 都 值 
得 读者 回味 。 





第 5 章 ”任务 提交 与 执行 


MERZ, HA; BPRS, HH. MRL, mH. 
一 一 《鬼谷子 》 
本 章 导读 


记得 几 年 前 ， 笔 者 阅读 Hadoop 的 相关 资料 时 ， 基 本 是 以 word Count 的 例子 展开 的 。word Count 的 例子 是 最 常见 、 最 易于 理解 、 最 便于 讲解 的 大 数据 应 用 场景 。 类 似 于 任何 介绍 编程 语言 的 书籍 ，hello 
world 能 用 最 短 的 时 间 ， 带 给 读者 最 直观 的 感受 ， 从 而 降低 语言 学 习 的 曲线 ， 也 便于 作者 著述 。 作 为 大 数据 的 入 门 实例 ， 笔 者 也 不 能 免 俗 ， 自 然 是 经 典 的 word Count 例 子 。 


任务 的 提交 与 执行 构建 在 存储 体系 与 计算 引擎 之 上 ， 存 储 体系 已 在 第 4 章 介 绍 ， 计 算 引 擎 将 在 第 6 章 讲 述 。 任 务 的 配置 信息 、jar 包 依赖 、 中 间 计 算 结果 缓 存 等 信息 都 离 不 开 存储 体系 ， 而 任务 的 执行 则 要 
依靠 计算 引擎 的 能 力 。 


5.1 任务 概述 





为 了 对 整个 任务 提交 与 执行 过 程 有 个 整体 认识 ， 请 读者 从 阅读 图 5-1 开 始 。 


这 里 对 图 5-1 中 任务 提交 与 执行 过 程 进行 简短 介绍 : 





1) build operator DAG: 此 阶段 主要 完成 RDD 的 转换 及 DAG 的 构建 。 





2) split graph into stages of tasks: 此 阶段 主要 完成 finalStage 的 创建 与 stage 的 划分 ， 做 好 Stage 与 Task 的 准备 工作 后 ， 最 后 提交 Stage 与 Task。 
3) launch tasks via cluster manager: 使 用 集群 管理 器 (Cluster manager) 分 配 资源 与 任务 调度 ， 对 于 失败 的 任务 还 会 有 一 定 的 重 试 与 容错 机 制 。 


4) execute tasks: 执行 任务 ， 并 将 任务 中 间 结 果 和 最 终结 果 存 入 存储 体系 。 
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图 5-1 任务 提交 与 执行 过 程 





Spark 源 码 自 带 的 example 项 目 中 有 很 多 给 学 习 或 者 研究 Spark 的 读者 准备 的 例子 ， 为 了 使 熟悉 Java 但 是 对 Scala 不 了 解 的 读者 也 能 变 得 轻松 ， 笔 者 选择 其 中 的 JavaWordCount 为 例 ， 来 开始 本 章 的 学 习 
历程 。 例 子 JavaWordCount 是 用 Java 实 现 的 ， 请 看 代码 清单 5-1。 


代码 清单 5-1 JavaWordCount 的 实现 





public final class JavaWordCount { 
private static final Pattern SPACE = Pattern.compile(" "); 
public static void main(String[] args) throws Exception { 
if (args.length < 1) { 
System.err.println("Usage: JavaWordCount <file>"); 
System.exit (1); 
} 
SparkConf sparkConf = new SparkConf () .setAppName ("JavaWordCount") .setMaster ("local") ; 
JavaSparkContext ctx = new JavaSparkContext (sparkConf) ; 
JavaRDD<String> lines = ctx.textFile(args[0], 1); 
JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() { 
@Override 
public Iterable<String> call(String s) { 
return Arrays.asList (SPACE.split(s)); 
} 
Me 
JavaPairRDD<String, Integer> ones = words.mapToPair(new PairFunction<String, String, Integer>() { 
@Override 
public Tuple2<String, Integer> call (String s) { 
return new Tuple2<String, Integer>(s, 1); 
} 
Ds 
JavaPairRDD<String, Integer> counts = ones.reduceByKey (new Function2<Integer, Integer, Integer>() { 
QOverride 
public Integer call(Integer il, Integer i2) { 
return il + i2; 
} 
We 


List<Tuple2<String, Integer>> output = counts.collect (); 
for (Tuple2<?,?> tuple : output) { 
System.out.println(tuple._1() +": " + tuple. 2()); 
} 
ctx.stop(); 


JavaSparkContext 的 textFile 实 际 只 是 代理 了 SparkContext 的 textFile 方 法 而 已 ， 代 码 如 下 。 


def textFile(path: String, minPartitions: Int): JavaRDD[String] = 
sc.textFile (path, minPartitions) 





SparkContext 的 textFile 方 法 中 ， 调 用 了 hadoopFile 方 法 。 熟 悉 Hadoop1.0 版 本 的 同学 可 能 已 经 注意 到 了 TextlnputFormat、LongWritable、Text 这 几 个 类 型 ， 此 处 分 别 获取 了 它们 的 Class 实 例 ， 见 
代码 清单 5-2。 


代码 清单 5-2 textFile 的 实现 





def textFile(path: String, minPartitions: Int = defaultMinPartitions): RDD-[String] = { 
assertNotStopped () 
hadoopFile (path, classOf[TextInputFormat], classOf[LongWritable], classOf[Text], 
minPartitions) .map(pair => pair. _2.toString) .setName (path) 





Giex 


MRv1 有 新 旧 两 套 MapReduce 编 程 接 口 ，Spatrk 为 什么 要 选择 MRv1 的 老 API 作 为 编程 模型 ? MRv2 向 前 兼容 MRv1 的 应 用 程序 时 ， 老 API 编 写 的 应 用 程序 几乎 不 用 改造 就 可 以 运行 在 MRv2 上 ; 但 是 用 MRv1 的 
新 API 编 写 的 应 用 程序 则 不 具备 良好 的 兼容 性 ， 需 要 使 用 MRv2 重 新 编译 对 参数 、 返 回 值 调整 后 才能 运行 在 MRv2 上 。 笔者 认为 这 可 能 是 Spatk 做 出 选择 的 原因 。 


hadoopFile 方 法 的 功能 主要 是 为 了 构建 HadoopRDD， 见 代码 清单 5-3， 其 处 理 步骤 如 下 : 





1) 将 Hadoop 的 Configuration 封 装 为 SerializableWritable 用 于 序列 化 读 写 操作 ， 然 后 广播 Hadoop 的 Configuration。Hadoop 的 Configuration 通 常 只 有 10 KB， 所 以 不 会 对 性 能 有 影响 ; 
2) 定义 偏 函数 (jobConf: JobConf) = >FilelnputFormat.setInputPaths (jobConf, path) 用 于 以 后 设置 输入 路 径 ; 
3) 构建 HadoopRDD。 


代码 清单 5-3 ”hadoopFile 的 实现 





def hadoopFile[K, V] ( 

path: String, 

inputFormatClass: Class[ <: InputFormat[K, V]], 

keyClass: Class[K], ~ 

valueClass: Class[V], 

minPartitions: Int = defaultMinPartitions 

): RDD[(K, V)] = { 
assertNotStopped () 
// A Hadoop configuration can be about 10 KB, which is pretty big, so broad-cast it. 
val confBroadcast = broadcast (new SerializableWritable (hadoopConfiguration) ) 
val stInputPathsFunc = (jobConf: JobConf) => FileInputFormat.setInputPaths (jobConf, path) 
new HadoopRDD ( 

this, 

confBroadcast, 

Some (set InputPathsFunc) , 

inputFormatClass, 

keyClass, 

valueClass, 

minPartitions) .setName (path) 





5.2 广播 Hadoop 的 配置 信息 








SparkContext 的 broadcast 方 法 用 于 广播 Hadoop 的 配置 信息 ， 其 实现 见 代 码 清单 5-4。 








代码 清单 5-4 广播 Hadoop 的 配置 信息 





def broadcast[T: ClassTag] (value: T): Broadcast[T] = { 
assertNotStopped () 
if (classOf[RDD[_]].isAssignableFrom(classTag[T].runtimeClass)) { 
logWarning ("Can not directly broadcast RDDs; instead, call collect() and" 
+ "broadcast the result (see SPARK-5063)") 
} 
val be = env.broadcastManager .newBroadcast [T] (value, isLocal) 
val callSite = getCallSite 
logInfo ("Created broadcast " + bc.id + " from " + callSite.shortFomm) 
cleaner. foreach (_.registerBroadcastForCleanup (bc) ) 
be 


























上 面 的 代码 通过 使 用 BroadcastManager 发 送 广播 ， 广 播 结 束 将 广播 对 象 注册 到 Context-Cleanner 中 ， 以 便 清理 。 根 据 3.2.9 节 的 内 容 ， 我 们 知道 BroadcastManager 的 newBroadcast 方 法 实际 代理 了 
broadcastFactory 的 newBroadcast 方 法 。 通 过 TorrentBroadcastFactory 生 成 TorrentBroadcast 对 象 的 代码 如 下 。 














override def newBroadcast[T: ClassTag] (value_ : T, isLocal: Boolean, id: Long) = { 
new TorrentBroadcast [T] (value_, id) 


} 





从 代码 清单 5-5 看 到 构造 TorrentBroadcast 的 过 程 分 为 三 步 。 
































1) 设置 广播 配置 信息 。 根 据 spark.broadcast.compress 配 置 属性 确认 是 否 对 广播 消息 进行 压缩 ， 并 且 生 成 CompressionCodec 对 象 。CompressionCodec 的 具体 介绍 见 4.11 节 。 根 据 
spark.broadcast.blockSize 配 置 属性 确认 块 的 大 小 ， 默 认为 4 MB. 











2) 生成 BroadcastBlockld。 


3) 块 的 写 入 操作 ， 返 回 广播 变量 包含 的 块 数 。 


代码 清单 5-5 _ TorrentBroadcast 的 实现 


@transient private lazy val value: T = readBroadcastBlock () 
@transient private var compressionCodec: Option[CompressionCodec] = 
@transient private var blockSize: Int = _ ~ 
private def setConf(conf: SparkConf) { 
compressionCodec = if (conf.getBoolean("spark.broadcast.compress", true)) { 
Some (CompressionCodec. createCodec (conf) ) 
} else { 
None 


} 

blockSize = conf.getInt ("spark.broadcast.blockSize", 4096) * 1024 
} 
setConf (SparkEnv .get .conf) 


private val broadcastId = BroadcastBlockId (id) 
private val numBlocks: Int = writeBlocks (obj) 


块 的 写 入 操作 writeBlocks 


从 代码 清单 5-6， 看 到 块 写 入 操作 writeBlocks 的 工作 分 三 步 。 





1) 将 要 写 入 的 对 象 在 本 地 的 存储 体系 中 备份 一 份 ， 以 便于 Task 也 可 以 在 本 地 的 Driver 上 运行 。 








2) 给 ByteArrayChunkOutputStream 指 定 压缩 算法 ， 并 且 将 对 象 以 序列 化 方式 写 入 Byte-ArrayChunkOutputStream 后 转换 为 Array[ByteBuffer]。 











3) 将 每 一 个 ByteBuffer 作 为 一 个 Block， 使 用 putBytes 方 法 写 入 存储 体系 。 














代码 清单 5-6 ”writeBlocks 的 实现 





private def writeBlocks (value: T): Int = { 
SparkEnv.get .blockManager.putSingle (broadcastId, value, StorageLevel.MEMORY_AND DISK, 
tellMaster = false) 
val blocks = 
TorrentBroadcast .blockifyObject (value, blockSize, SparkEnv.get.serializer, compressionCodec) 
blocks.zipWithIndex.foreach { case (block, i) => 
SparkEnv.get.blockManager.putBytes ( 
BroadcastBlockId(id, "piece" + i), 
block, 
StorageLevel .MEMORY AND DISK SER, 
tellMaster = true) — ~ 


} 
blocks. length 
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BlockManager 49 putSinglefeputBytes BE B4 HEF wBit, RAAB. 








TorrentBroadcast.blockifyObject 方 法 
blockifyObject 的 实现 见 代 码 清单 5-7。 

















于 将 对 象 序列 化 写 入 ByteArrayChunkOutputStream， 并 用 CompressionCodec 压 缩 ， 最 终 将 ByteArrayChunkOutputStream 转 换 为 Array[ByteBuffer]。 


代码 清单 5-7 ”blockifyObject 方 法 的 实现 


def blockifyObject[T: ClassTag] ( 
obj: T, 
blockSize: Int, 
serializer: Serializer, 
compressionCodec: Option[CompressionCodec]): Array[ByteBuffer] = { 
val bos = new ByteArrayChunkOutputStream (blockSize) 
val out: OutputStream = compressionCodec.map(c => c.compressedOutputStream (bos) ) .getOrElse (bos) 
val ser = serializer.newInstance() 
val serOut = ser.serializeStream (out) 
serOut .writeObject [T] (obj) .close () 
bos.toArrays .map (ByteBuffer.wrap) 





5.3 RDD 转 换 及 DAG 构 建 


5.3.1 为 什么 需要 RDD 























以 下 从 数据 处 理 模型 、 依 赖 划 分 原则 、 数 据 处 理 效率 及 容错 处 理 4 个 方面 解释 Spark 发 明 RDD 的 原因 。 


1 .数据 处 理 模型 














RDD 是 一 个 容错 的 、 并 行 的 数据 结构 ， 可 以 控制 将 数据 存储 到 磁盘 或 内 存 ， 能 够 获取 数据 的 分 区 。RDD 提 供 了 一 组 类 似 于 Scala 的 操作 ， 比 如 map、flatMap、filter 等 ， 这 些 操作 实际 是 对 RDD 进 行 转 
换 (transformation) 。 此 外 ，RDD 还 提供 了 join、groupBy、reduceByKey 等 操作 完成 数据 计算 (注意 ，reduceByKey 是 action， 而 非 transformation) 。 


















































当前 的 大 数据 应 用 场景 非常 丰富 ， 如 流 式 计算 、 图 计算 、 机 器 学 习 等 。 它 们 既 有 相似 之 处 ， 又 各 有 不 同 。 为 了 能 够 对 所 有 场景 下 的 数据 处 理 使 用 统一 的 方式 ， 抽 象 出 RDD 这 一 模型 。 
































通常 数据 处 理 的 模型 包括 : 迭代 计算 、 关 系 查询 、MapReduce、 流 式 处 理 等 。Hadoop 采 用 MapReduce 模 型 ，Storm 采 用 流 式 处 理 模 型 ， 而 Spark 则 实现 了 以 上 所 有 模型 。 








2. 依 赖 划 分 原则 

















一 个 RDD 包 含 一 个 或 者 多 个 分 区 ， 每 个 分 区 实际 是 一 个 数据 集合 的 片段 。 在 构建 DAG 的 过 程 中 ， 会 将 RDD 用 依赖 关系 串联 起 来 。 每 个 RDD 都 有 其 依赖 (除了 最 顶级 RDD 的 依赖 是 空 列 表 ) ， 这 些 依赖 
分 为 NarrowDependency 和 ShuffleDependency 两 种 。 为 什么 要 对 依赖 进行 区 分 ”从 功能 角度 讲 它们 是 不 一 样 的 。NarrowDependency 会 被 划分 到 同一 个 Stage 中 ， 这 样 它们 就 能 以 管道 的 方式 迭代 执 
行 。ShuffleDependency 由 于 依赖 的 上 游 RDD 不 止 一 个 ， 所 以 往往 需要 跨 节点 传输 数据 。 从 容 灾 角度 讲 ， 它 们 恢复 计算 结果 的 方式 不 同 。NarrowDependency 只 需要 重新 执行 父 RDD 的 丢失 分 区 的 计算 即 
可 恢复 。 而 ShuffleDependency 则 需要 考虑 恢复 所 有 父 RDD 的 丢失 分 区 。 






































解释 了 依赖 划分 的 原因 ， 实 际 也 解释 了 为 什么 要 划分 Stage 这 个 问题 。 


3 数据 处 理 效率 


ShuffleDependency 所 依赖 的 上 游 RDD 的 计算 过 程 允许 在 多 个 节点 并 发 执行 ， 如 图 5-2[1] 所 示 ， 实 际 也 就 是 后 面 将 会 讲 到 的 ShuffleMapTask 在 多 个 节点 上 的 多 个 实例 。 如 果 数 据 量 很 大 ， 可 以 适当 增 
加 分 区 数量 ， 这 种 根据 硬件 条 件 对 并 发 任务 数量 的 控制 ， 能 更 好 地 利用 各 种 资源 ， 也 能 有 效 提 高 Spark 的 数据 处 理 效率 。 
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图 5-2 RDD 并 行 计 算 示意 图 


4 容错 处 理 
传统 关系 型 数据 库 往 往 采 用 日 志 记 录 的 方式 来 容 灾 容错 ， 数 据 恢复 都 依赖 于 重新 执行 日 志 中 的 SQL。Hadoop 为 了 避免 单机 故障 概率 较 高 的 问题 ， 通 过 将 数据 备份 到 其 他 机 器 容 灾 。 由 于 所 有 备份 机 器 





同时 出 故障 的 概率 比 单机 故障 概率 低 很 多 ， 从 而 在 宕 机 等 问题 发 生 时 ， 从 备份 机 读 取 数 据 。RDD 本 身 是 一 个 不 可 变 的 〈Scala 中 称 为 immutable) 数据 集 ， 当 某 个 Worker 节 点 上 的 任务 失败 时 ， 可 以 利用 
DAG 重 新 调度 计算 这 个 失败 的 任务 。 由 于 不 用 复制 数据 ， 也 大 大 降低 了 网 络 通信 。 在 流 式 计 算 的 场景 中 ，Spark 需 要 记录 日 志和 检查 点 (CheckPoint) ， 以 便利 用 CheckPoint 和 日 志 对 数据 进行 恢复 。 











5.3.2 RDD 实 现 分 析 





代码 清单 5-3 中 最 后 创建 了 HadoopRDD， 此 时 的 DAG 如 图 5-3 所 示 。 























图 5-3 只 有 HadoopRDD 时 的 DAG 














hadoopFile 方 法 创建 完 HadoopRDD 后 ， 会 调用 RDD 的 map 方 法 ， 见 代码 清单 5-2。 











map 方 法 将 HadoopRDD 封 装 为 MappedRDD， 见 代码 清单 5-8。 


代码 清单 5-8 ”map 方法 的 实现 





def map[U: ClassTag] (f: T => U): RDD[U] = new MappedRDD(this, sc.clean(f)) 











这 里 调用 了 SparkContext 的 clean 方 法 ， 实 现 如 下 。 











private[spark] def clean[F <: AnyRef] (f: F, checkSerializable: Boolean = true): F = { 
ClosureCleaner.clean(f, checkSerializable) 
f 

















clean 方 法 实际 调用 了 ClosureCleaner 的 clean 方 法 ， 这 里 意 在 清除 闭 包 中 的 不 能 序列 化 的 变量 ， 防 止 RDD 在 网 络 传输 过 程 中 反 序 列 化 失败 。 











构造 MappedRDD 的 步骤 如 下 : 











1) 调用 MappedRDD 的 父 类 RDD 的 辅助 构造 器 ，RDD 的 辅助 构造 器 实现 如 下 。 














def this(@transient oneParent: RDD[_]) = 
this (oneParent.context , List (new OneToOneDependency (oneParent) ) ) 











助 构造 器 首先 将 oneParent 封 装 为 OneToOneDependency，OneToOneDependency 继 承 自 NarrowDependency， 其 实现 如 下 。 





























class OneToOneDependency[T] (rdd: RDD[T]) extends NarrowDependency[T] (rdd) { 
override def getParents(partitionId: Int) = List (partitionId) 
} 











2) 调用 RDD 的 主 构造 器 ， 主 构造 器 实现 如 下 。 














abstract class RDD[T: ClassTag] ( 
@transient private var _sc: SparkContext, 
@transient private var deps: Seq[Dependency[_]] 
) extends Serializable with Logging { 
protected def getDependencies: Seq[Dependency[_]] = deps 
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getDependencies 方 法 虽然 只 是 简单 地 返回 依赖 信息 ， 但 是 它 将 在 接 下 来 的 内 容 中 发 挥 巨大 的 作用 。 














构建 完 MappedRDD 后 ， 此 时 的 DAG 如 图 5-4 所 示 。 


OneToOneDependency 8 | 


HadoopRDD 8 | 
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图 5-4 MappedRDD 与 HadoopRDD 组 成 的 DAG 























MappedRDD 在 JavaSparkContext 中 会 被 隐 式 转换 为 JlavaRDD。 代 码 清单 5-1 接 着 执行 JavaRDD 的 flatMap 方 法 ， 由 于 JavaRDD 实 现 了 JavaRDDLike 特 质 ， 所 以 实际 调用 了 Java-RDDLike 的 flatMap 方 
法 ， 它 的 实现 如 下 。 





def flatMap[U] (f: FlatMapFunction[T, U]): JavaRDD[U] = { 
import scala.collection.JavaConverters._ 
def fn = (x: T) => f.call(x).asScala 
JavaRDD. fromRDD (rdd.flatMap (fn) (fakeClassTag[U])) (fakeClassTag[U] ) 














实现 如 下 。 





此 时 ，JavaRDD 内 部 的 rdd 属 性 实质 上 还 是 MappedRDD， 调 用 MappedRDD 的 flatMap 方 法 ， 








def flatMap[U: ClassTag] (f: T => TraversableOnce[U]): RDD[U] = 
new FlatMappedRDD(this, sc.clean(f)) 











MappedRDD 被 封装 为 FlatMappedRDD， 构 造 FlatMappedRDD 也 会 调用 父 类 RDD 的 辅助 构造 器 ， 并 为 其 设置 OneToOneDependency， 这 与 MappedRDD 的 构造 过 程 是 一 样 的 。 此 时 的 DAG 如 图 5- 
5 所 示 。 














OneToOneDependency £] 
OneToOneDependency | 





图 5-5 FlatMapbedRDD、MappedRDD 与 HadoopRDD 组 成 的 DAG 


FlatMappedRDD 创 建 完 后 调用 了 JavaRDD 的 fromRDD 方 法 ， 将 FlatMappedRDD 也 封装 为 JavaRDD， 代 码 如 下 。 





object JavaRDD { 
implicit def fromRDD[T: ClassTag] (rdd: RDD[T]): JavaRDD[T] = new JavaRDD[T] (rdd) 
implicit def toRDD[T] (rdd: JavaRDD[T]): RDD[T] = rdd.rdd 























接着 执行 JavaRDD 的 mapToPair 方 法 时 ( 见 代码 清单 5-1) ，JavaRDD 由 于 实现 了 Java-RDDLike 特 质 ， 所 以 实际 调用 了 JavaRDDLike 的 mapToPair 方 法 ， 代 码 实现 如 下 。 





def mapToPair[K2, V2] (f: PairFunction[T, K2, V2]): JavaPairRDD[K2, V2] = { 

def cm = implicitly[ClassTag[(K2, V2)]] 

new JavaPairRDD(rdd.map[(K2, V2)] (£) (cm)) (fakeClassTag[K2], fakeClassTag[V2]) 
} 








5-6 所 示 。 








此 时 ，JavaRDD 内 部 的 rdd 属 性 实际 上 还 是 FlatMappedRDD， 此 时 调用 RDD 的 map， 又 被 封装 为 MappedRDD， 见 代码 清单 5-8。 此 时 的 DAG 如 








[ 
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deps:List 





图 5-6 FlatMappedRDD, 24MappedRDD 与 HadoopRDD 组 成 的 DAG 





然后 MappedRDD 又 被 封装 为 JavaPairRDD。 执 行 JavaPairRDD 的 reduceByKey 方 法 ， 其 实现 见 代码 清单 5-9。 


代码 清单 5-9 reduceByKey 的 实现 





def reduceByKey (func: JFunction2[V, V, V]): JavaPairRDD[K, V] = { 
fromRDD (reduceByKey (defaultPartitioner (rdd), func) ) 
} 








defaultPartitioner 方 法 的 实现 见 代码 清单 5-10， 其 功能 实现 如 下 。 


1) 将 RDD 转 换 为 Seq， 然 后 对 Seq 按 照 RDD 的 partitions_: Array[Partition] 的 size 倒 序 排列 。 





























回 














2) 创建 HashPartitioner 对 象 。 如 果 配 置 了 spark.default.parallelism 属 性 ， 则 用 此 属性 值 作为 分 区 数量 。 否 则 使 用 Seq 中 所 有 RDD 的 partitions 函 数 返 回 值 的 最 大 值 作为 分 区 数量 。 


代码 清单 5-10 defaultPartitioner 方 法 的 实现 





def defaultPartitioner(rdd: RDD[_], others: RDD[ ]*): Partitioner = { 
val bySize = (Seq(rdd) ++ others) .sortBy(_.partitions.size) . reverse 
for (r <- bySize if r.partitioner.isDefined) { 
return r.partitioner.get 


} 


if (rdd.context.conf.contains ("spark.default.parallelism")) { 
new HashPartitioner (rdd.context.defaultParallelism) 
} else { 


new HashPartitioner (bySize.head.partitions.size) 


} 





RDD 的 partitions 方 法 的 实现 见 代码 清单 5-11。 


代码 清单 5-11 ”partitions 方 法 的 实现 





final def partitions: Array[Partition] = { 
checkpointRDD.map(_.partitions).getOrElse { 


i£ (partitions == null) { 
partitions_ = getPartitions 

} 

partitions_ 


} 




















本 例 中 ，partitions 方 法 实际 调用 了 MappedRDD 的 getPartitions 方 法 。MappedRDD 的 getPartitions 方 法 调用 了 RDD 的 firstParent， 见 代码 清单 5-12。 


代码 清单 5-12 ”getPartitions 方 法 的 实现 





override def getPartitions: Array[Partition] = firstParent[T] .partitions 


























firstParent 用 于 返回 依赖 的 第 一 个 父 RDD， 见 代码 清单 5-13。 我 们 知道 MappedRDD 的 第 一 个 依赖 RDD 是 FlatMappedRDD， 然 后 调用 FlatMappedRDD 的 partitions 方 法 。FlatMapped-RDD 没 有 
partitions 方 法 ， 所 以 调用 了 RDD 的 partitions 方 法 。 

















代码 清单 5-13 ”firstParent 的 实现 





protected[spark] def firstParent[U: ClassTag] = { 
dependencies. head. rdd.asInstanceOf [RDD[U] ] 
i 














FlatMappedRDD 的 getPartitions 与 MappedRDD 的 getPartitions 完 全 一 样 ， 仍 然 会 调用 first-Parent 方 法 。FlatMappedRDD 的 第 一 个 父 RDD 是 最 早 封装 的 那个 MappedRDD，MappedRDD 的 第 一 
个 父 RDD 是 HadoopRDD。HadoopRDD 也 没有 partitions 方 法 ， 实 际 也 是 调用 了 RDD 的 partitions 方 法 。partitions 最 终 调用 HadoopRDD 的 getPartitions 方 法 ， 见 代码 清单 5-14。 























代码 清单 5-14 getPartitions 方 法 的 实现 





override def getPartitions: Array[Partition] = { 
val jobConf = getJobConf () 
SparkHadoopUtil.get.addCredentials (jobConf) 
val inputFormat = getInputFormat (jobConf) 
if (inputFormat.isInstanceOf[Configurable]) { 
inputFormat .asInstanceOf [Configurable] .setConf (jobConf) 


val inputSplits = inputFormat.getSplits (jobConf, minPartitions) 
val array = new Array[Partition] (inputSplits.size) 
for (i <- 0 until inputSplits.size) { 
array(i) = new HadoopPartition(id, i, inputSplits(i)) 
} 


array 





阅读 代码 清单 5-14 发 现 ， 最 后 是 通过 Hadoop 的 TextInputFormat.getSplits (jobConf，min-Partitions) 方法 决定 分 区 个 数 的 。 

















回 到 代码 清单 5-9， 最 终 调用 RDD 的 reduceByKey， 见 代码 清单 5-15。 














代码 清单 5-15 ”JavaPairRDD.reduceByKey 的 实现 


def reduceByKey (partitioner: Partitioner, func: JFunction2[V, V, V]): JavaPairRDD[K, V] = 
fromRDD (rdd. reduceByKey (partitioner, func) ) 





无 论 是 RDD 还 是 MappedRDD 都 没有 reduceByKey。 这 是 怎么 回 
转换 函数 如 下 。 





?笔者 刚才 的 结论 只 是 阅读 代码 清单 5-15 的 直观 感觉 而 已 。 实 际 上 这 里 发 生 了 隐 式 转换 ， 将 RDD 封 装 成 了 Pair-RDDFunctions， 隐 式 











implicit def rddToPairRDDFunctions[K, V] (rdd: RDD[(K, V)]) 
(implicit kt: ClassTag[K], vt: ClassTag[V], ord: Ordering[K] = null) = { 
new PairRDDFunctions (rdd) 





implicit 是 Scala 中 的 关键 字 ， 语 法 含义 是 隐 式 执行 。 在 发 生 隐 式 转换 之 前 ， 还 需要 将 Java 里 的 方法 转换 为 scala 的 参数 ， 这 里 主要 做 了 两 样 工作 : 























1) 用 户 自 定义 实现 所 需 方法 的 匿名 对 象 ， 将 对 象 作为 参数 。 正 如 本 例 中 代码 清单 5-1 的 Function2 匿 名 对 象 。 




















2) 隐 式 转换 将 对 象 转换 为 Scala 的 函数 ， 转 换 函 数 如 下 。 





private [spark] 
implicit def toScalaFunction2[Tl, T2, R] (fun: JFunction2[T1, T2, R]): Function2-[Tl, T2, R] = { 
(x: T1, xl: T2) => fun.call(x, x1) 


























经 过 了 多 次 转换 ， 终 于 可 以 调用 PairRDDFunctions 的 reduceByKey 方 法 了 ， 其 实现 如 下 。 





def reduceByKey (Partitioner: Partitioner, func: (V, V) => V): RDD[(K, V)] = { 
combineByKey[V] ((v: V) => v, func, func, partitioner) 


} 








combineByKey 方 法 的 实现 见 代 码 清单 5-16， 其 处 理 步 又 如 下 : 








1) 创建 Aggregator (其 中 mergeValue 就 是 代码 清单 5-1 中 的 Function2) 。 





2) 由 于 本 例 中 当前 RDD 还 没有 设置 partitioner，self.partitioner! =Some (partitioner) ， 因 而 创建 ShuffledRDD。 











代码 清单 5-16 combineByKey 方 法 的 实现 





val aggregator = new Aggregator[K, V, C] ( 
self.context.clean (createCombiner) , 
self.context.clean (mergeValue) , 
self.context.clean (mergeCombiners) ) 
if (self.partitioner == Some(partitioner)) { 
self.mapPartitions (iter => { 
val context = TaskContext.get () 
new InterruptibleIterator (context, aggregator.combineValuesByKey (iter, context) ) 
}, preservesPartitioning = true) 
} else { 
new ShuffledRDD[K, V, C] (self, partitioner) 
.setSerializer (serializer) 
.setAggregator (aggregator) 
.setMapSideCombine (mapSideCombine) 





ShuffledRDD 的 构造 器 及 setSerializer、setAggregator、setMapSideCombine 等 方法 的 实现 ， 见 代码 清单 5-17。 从 中 看 出 ShuffledRDD 的 依赖 是 ShuffleDependency。FlatMappedRDD 和 
MappedRDD 的 依赖 都 是 在 构造 器 被 调用 时 创建 的 ， 而 ShuffledRDD 的 依赖 ShuffleDependency 则 是 在 其 getDependencies 方 法 被 调用 时 才 创建 的 。 


















































代码 清单 5-17 ”ShuffledRDD 及 setSerializer 等 方法 的 实现 





class ShuffledRDD[K, V, C] ( 
@transient var prev: RDD[_ <: Product2[K, V]], 
part: Partitioner) 

extends RDD[(K, C)] (prev.context, Nil) { 


private var serializer: Option[Serializer] = None 
private var keyOrdering: Option[Ordering[K]] = None 
private var aggregator: Option[Aggregator[K, V, C]] = None 


private var mapSideCombine: Boolean = false 
/** Set a serializer for this RDD's shuffle, or null to use the default (spark.serializer) */ 


def setSerializer (serializer: Serializer): ShuffledRDD[K, V, C] = { 
this.serializer = Option (serializer) 
this 


/** Set key ordering for RDD's shuffle. */ 

def setKeyOrdering(keyOrdering: Ordering[K]): ShuffledRDD[K, V, C] = { 
this.keyOrdering = Option (keyOrdering) 
this 


/** Set aggregator for RDD's shuffle. */ 

def setAggregator (aggregator: Aggregator[K, V, C]): ShuffledRDD[K, V, C] = { 
this.aggregator = Option (aggregator) 
this 


} 
/** Set mapSideCombine flag for RDD's shuffle. */ 
def setMapSideCombine (mapSideCombine: Boolean): ShuffledRDD[K, V, C] = { 
this.mapSideCombine = mapSideCombine 
this 
} 
override def getDependencies: Seq[Dependency[_]] = { 
List (new ShuffleDependency (prev, part, serializer, keyOrdering, aggregator, mapSideCombine) ) 
} 


override val partitioner = Some (part) 








ShuffledRDD 被 romRDD 方 法 





新 封装 为 JavaPairRDD， 代 码 如 下 。 








def fromRDD[K: ClassTag, V: ClassTag] (rdd: RDD[ (K, V)]): JavaPairRDD[K, V] = { 
new JavaPairRDD[K, V] (rdd) 
} 





此 时 的 DAG 如 图 5-7 所 示 。 


OneToOneDependency £ | 
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5-7 最 终 的 DAG 








[1] 图 片 引用 自 http://www.zhihu.com/question/26568496。 


54 任务 提交 


5.4.1 “任务 提交 的 准备 





经 过 5.3 节 对 RDD 的 层 层 转换 以 及 DAG 的 构建 ， 现 在 要 执行 JavaPairRDD 的 word count 例 子 方法 了 ， 见 代码 清单 5-1。collect 中 调用 了 RDD 的 collect 方 法 后 转 成 Seq， 并 封装 Seq 为 ArrayList， 其 代码 实 
现 如 下 。 





def collect(): JList[T] = { 
import scala.collection.JavaConversions._ 
val arr: java.util.Collection[T] = rdd.collect () .toSeq 
new java.util.ArrayList (arr) 











RDD 的 collect 方 法 调用 了 SparkContext 的 runJob， 见 代码 清单 5-18。 


代码 清单 5-18 collect 的 实现 





def collect(): Array[T] = { 
val results = sc.runJob (this, (iter: Iterator[T]) => iter.toArray) 
Array.concat (results: _*) 

i 











SparkContext 的 runJob 又 调用 了 重 载 的 runJob， 见 代码 清单 5-19。 











代码 清单 5-19 ”runJob 的 实现 





def runJob[T, U: ClassTag] (rdd: RDD[T], func: Iterator[T] => U): Array[U] = { 
rundob(rdd, func, 0 until rdd.partitions.size, false) 
} 











接着 又 调用 两 个 重 载 的 runJob， 见 代码 清单 5-20。 














代码 清单 5-20 ”runJob 的 重 载 





def runJob[T, U: ClassTag] ( 
rdd: RDD[T], 
func: Iterator[T] => U, 
partitions: Seq[Int], 
allowLocal: Boolean 
): Array[U] = { 
rundob(rdd, (context: TaskContext, iter: Iterator[T]) => func(iter), partitions, allowLocal) 
} 
def runJob[T, U: ClassTag] ( 
rdd: RDD[T], 
func: (TaskContext, Iterator[T]) => U, 
partitions: Seq[Int], 
allowLocal: Boolean 
): Array[U] = { 
val results = new Array[U] (partitions.size) 
runJob[T, U] (rdd, func, partitions, allowLocal, (index, res) => results (index) = res) 
results 























最 终 调用 的 runJob 方 法 里 又 一 次 调用 clean 方 法 防止 闭 包 的 反 序列 化 错误 ， 然 后 运行 dagScheduler 的 runJob， 见 代码 清单 5-21。 




















代码 清单 5-21 ”最 终 调用 的 runJob 方 法 





def runJob[T，U: ClassTag] ( 
rdd: RDD[T], 
func: (TaskContext, Iterator [T]) 
partitions: Seq[Int], 
allowLocal: Boolean, 
resultHandler: (Int, 
if (stopped) { 


U) => Unit) { 


=> U, 


throw new IllegalStateException("SparkContext has been shutdown") 


val callSite = getCallSite 
val cleanedFunc = clean (func) 


logInfo ("Starting job: " + callSite.shortForm) 
dagScheduler.runJob(rdd, cleanedFunc, partitions, callSite, allowLocal, 
resultHandler, localProperties.get) 


progressBar. foreach (_.finishAl1()) 
rdd.doCheckpoint () 


dagScheduler 的 runJob 方 法 主要 调用 submitJob 方 法 ， 之 后 的 waiter.awaitResult () 说 明了 任务 的 运行 是 异步 的 ， 见 代码 清单 5-22。 


代码 清单 5-22 dagScheduler 的 runJob 方 法 





def runJob[T，U: ClassTag] ( 
rdd: RDD[T], 
func: (TaskContext, 
partitions: Seq[Int], 
callSite: CallSite, 
allowLocal: Boolean, 
resultHandler: 
properties: Properties): Unit = 
val start = System.nanoTime 
val waiter = 
waiter.awaitResult() match { 
case JobSucceeded => { 


Iterator [T]) 


(Int, U) => Unit, 


=> U, 


submitJob(rdd, func, partitions, callSite, allowLocal, result-Handler, properties) 


logInfo ("Job %d finished: %s, took %f s".format 


(waiter.jobId, callSite.shortForm, 


case JobFailed(exception: Exception) => 
logInfo ("Job %d failed: %s, took %f s".format 


(waiter.jobId, callSite.shortForm, 


throw exception 


(System.nanoTime - start) / 1e9)) 


(System.nanoTime - start) / 1e9)) 





1. 提 交 Job 


submitJob 方 法 用 来 将 一 个 Job 提 交 到 job scheduler， 见 代码 清单 5-23。 


代码 清单 5-23 submitjob 方 法 的 实现 








val maxPartitions = 


rdd.partitions.length 


partitions.find(p => p >= maxPartitions || p < 0).foreach { p => 
throw new IllegalArgumentException ( 
"Attempting to access a non-existent partition: " +p +". "+ 
"Total number of partitions: " + maxPartitions) 


} 
val jobId = nextJobId.getAndIncrement () 
if (partitions.size == 0) { 


return new JobWaiter[U] (this, jobId, 0, resultHandler) 


} 


assert (partitions.size > 0) 


val func2 = func.asInstanceOf[(TaskContext, Iterator[_] 


val waiter = 
eventProcessActor ! JobSubmitted ( 


=> ] 


new JobWaiter(this, jobId, partitions.size, resultHandler) 


jobId, rdd, func2, partitions.toArray, allowLocal, callSite, waiter, properties) 


waiter 





根据 代码 清单 5-23 分 析 ，submitjob 的 处 理 步骤 如 下 : 














1) 调 








2) 生成 当前 Job 的 jobld。 





5) 返回 JobWaiter。 


代码 清单 5-24 JobWaiter 的 实现 


private[spark] class JobWaiter[T] ( 
dagScheduler: DAGScheduler, 
val jobId: Int, 
totalTasks: Int, 
resultHandler: (Int, 
extends JobListener { 
private var finishedTasks = 0 
@volatile 
private var - 
def jobFinished = _jobFinished 
private var jobResult: JobResult = 
def cancel() { 
dagScheduler.cancelJob (jobId) 


T) => Unit) 


} 


RDD 的 partitions 函 数 来 获取 当前 Job 的 最 大 分 区 数 ， 即 maxPartitions。 根 据 maxPartitions， 确 认 我 们 没有 在 一 个 不 存在 的 partition 上 运行 任务 。 





创建 JobWaiter， 望 文生 义 ， 即 Job 的 服务 员 。JobWaiter 的 实现 见 代码 清单 5-24。 从 代码 清单 5-24 可 以 了 解 ， 此 JobWaiter 被 阻塞 ， 直 到 job 完成 或 者 被 取消 。 








4) 向 eventProcessActor 发 送 JobSubmitted 导 





Bt (这 号 





有 的 eventProcessActor 在 3.7 节 中 已 经 介绍 过 ， 就 是 DAGSchedulerEventProcessActor) 。 





jobFinished = totalTasks == 0 


if (jobFinished) JobSucceeded else null 


override def taskSucceeded(index: Int, result: Any): Unit = synchronized { 


if (_jobFinished) { 


throw new UnsupportedOperationException ("taskSucceeded() called on a finished JobWaiter") 


resultHandler (index, result.asInstanceOf[T]) 


finishedTasks += 1 


if (finishedTasks == totalTasks) 
_jobFinished = true 
jobResult = JobSucceeded 


this.notifyA11 () 
} 
} 


{ 


override def jobFailed (exception: Exception): Unit = synchronized { 


_jobFinished = true 
jobResult = JobFailed (exception) 
this.notifyA11 () 


def awaitResult(): JobResult = synchronized { 
while (! jobFinished) { 
this.wait () 


return jobResult 


2. 处 理 Job 提 交 















































DAGSchedulerEventProcessActor 收 到 JobSubmitted 事 件 ， 会 调用 dagScheduler 的 handle-JobSubmitted 方 法 ， 见 代码 清单 3-35。handleJobSubmitted 的 具体 实现 见 代码 清单 5-25， 其 执行 过 程 
如 下 。 




















1) 创建 finalstage 及 stage 的 划分 。 创 建 stage 的 过 程 可 能 发 生 异 常 。 比 如 ， 运 行 在 HadoopRDD 上 的 任务 所 依赖 的 底层 HDFS 文 件 被 删除 了 。 所 以 当 异 常 发 生 时 需要 主动 调用 JobWaiter 的 jobFailed 方 
法 。 























2) 创建 ActivejJob 并 更 新 jobldToActiveJob = new HashMap[lnt，ActivejJob]、activejJobs = new HashSet[ActiveJob] 和 finalStage.resultOfJob。 
3) 向 listenerBus 发 送 SparkListenerJobStart 事 件 。 

4) 提交 finalStage。 

5) 提交 等 待 中 的 Stage。 


代码 清单 5-25 ”handleJobSubmitted 的 实现 





private[scheduler] def handleJobSubmitted(jobId: Int, finalRDD: RDD[_], 
func: (TaskContext, Iterator[_]) => , partitions: Array[Int], allowLocal: Boolean, 
callSite: CallSite, listener: JobListener, properties: Properties) { 
var finalStage: Stage = null 


try { 
7 finalStage = newStage(finalRDD, partitions.size, None, jobId, callSite) 
} catch { 
case e: Exception => 
logWarning ("Creating new stage failed due to exception - job: " + jobId, e) 
listener.jobFailed (e) 
return 


} 
if (finalStage != null) { 
val job = new ActiveJob (jobId, finalStage, func, partitions, callSite, listener, properties) 
clearCacheLocs () 
val shouldRunLocally = 
localExecutionEnabled && allowLocal && finalStage.parents.isEmpty && partitions.length == 1 
if (shouldRunLocally) { 
// Compute very short actions like first() or take() with no parent stages locally. 
listenerBus.post (SparkListenerJobStart (job.jobId, Seq.empty, properties) ) 
runLocally (job) 
} else { 
jobIdToActiveJob (jobId) = job 
activeJobs += job 
finalStage.resultOfJob = Some (job) 
val stageIds = jobIdToStageIds (jobId) .toArray 
val stageInfos = stageIds.flatMap (id => stageIdToStage.get (id) .map(_.latestInfo) ) 
listenerBus .post (SparkListenerJobStart (job.jobId, stageInfos, properties) ) 
submitStage (finalStage) 
} 
} 
submitWaitingStages () 


5.4.2 finalStage 的 创建 与 stage 的 划分 





























在 Spark 中 ， 一 个 Job 可 能 被 划分 为 一 个 或 多 个 stage， 各 个 之 间 存 在 依赖 关系 ， 其 中 最 下 游 的 Stage 也 称 为 最 终 的 stage， 用 来 处 理 Job 最 后 阶段 的 工作 。 


1.newStage 的 实现 分 析 




















handleJobSubmitted 方 法 使 用 newStage 方 法 创建 finalStage，newStage 的 实现 见 代 码 清单 5-26， 它 的 处 理 步骤 如 下 : 




















1) 调用 getParentStages 获 取 所 有 的 父 Stage 的 列表 ， 父 Stage 主 要 是 宽 依 赖 (如 Shuffle-Dependency) 对 应 的 Stage， 此 列表 内 的 Stage 包 含 以 下 几 种 : 











Q@ 当 前 RDD 的 直接 或 间接 的 依赖 是 ShuffleDependency 且 已 经 注册 过 的 Stage。 








@ 当 前 RDD 的 直接 或 间接 的 依赖 是 ShuffleDependency 且 没有 注册 过 Stage 的 ， 则 根据 ShuffleDependency 本 身 的 RDD， 找 到 它 的 直接 或 间接 的 依赖 是 ShuffleDependency 且 没有 注册 过 Stage 的 所 有 
ShuffleDependency， 为 他 们 生成 Stage 并 注册 。 














@ 当 前 RDD 的 直接 或 间接 的 依赖 是 ShuffleDependency 且 没有 注册 过 Stage 的 ， 为 它们 生成 Stage 并 注册 ， 最 后 也 添加 此 Stage 到 List。 


2) 生成 Stage 的 Id， 并 创建 Stage (创建 stage 在 后 面 会 详 述 ) 。 








3) 将 Stage 注 册 到 stageldToStage = new HashMap[lnt，Sstage] 中 。 























4) 调用 updateJobldStageldMaps 方 法 Stage 及 : 











祖先 Stage 与 jobld 的 对 应 关系 。 


代码 清单 5-26 ”newStage 的 实现 


private def newStage ( 
rdd: RDD[ ], 
numTasks: Int, 
shuffleDep: Option[ShuffleDependency[_, _, _]], 
jobId: Int, = = 
callSite: CallSite) 
: Stage = 


val parentStages = getParentStages(rdd, jobId) 

val id = nextStageId.getAndIncrement () 

val stage = new Stage(id, rdd, numTasks, shuffleDep, parentStages, jobId, callSite) 
stageIdToStage (id) = stage 

updateJobIdStageIdMaps (jobId, stage) 

stage 





2. 获 取 父 Stage 列 表 


Spark 中 Job 会 被 划分 为 一 到 多 个 Stage， 这 些 Stage 的 划分 是 从 finalStage: 





些 Stage 将 被 分 配给 jobld 对 应 的 job， 其 处 理 步骤 如 下 。 











始 ， 从 后 往 前 边 划分 边 创 











1) 通过 调用 RDD 的 dependencies 方 法 ( 见 代 码 清单 5-28) 获取 RDD 的 所 有 Dependency 的 序列 。 











2) 逐个 访问 每 个 RDD 及 其 依赖 的 非 Shuffle 的 RDD， 遍 历 每 个 RDD 的 Shuffle-Dependency 依 赖 ， 并 调 有 


au 


HashSet[Stage]。 由 此 可 见 ，Stage 的 划分 是 以 ShuffleDependency 为 分 界线 的 。 


代码 清单 5-27 getParentStages 方 法 的 实现 


private def getParentStages(rdd: RDD[_], jobId: Int): List[Stage] 


val parents = new HashSet [Stage] 
val visited = new HashSet [RDD[_]] 
val waitingForVisit = new Stack[RDD[_]] 
def visit(r: RDD[_]) { > 
if (!visited(r)) { 
visited += r 
for (dep <- r.dependencies) { 
dep match { 


case shufDep: ShuffleDependency[_, 


{ 


parents += getShuffleMapStage(shufDep, jobId) 


case _ => 


waitingForVisit.push (dep. rdd) 


} 

} 

waitingForVisit.push (rdd) 

while (!waitingForVisit.isEmpty) { 
visit (waitingForVisit.pop ()) 

} 

parents.toList 


代码 清单 5-28 dependencies 方 法 的 实现 














。getParentStages 方 法 ( 见 代码 清单 5-27) 用 于 获取 或 者 创建 给 定 RDD 的 所 有 父 Stage， 





























getSshuffleMapStage 获 取 或 者 创建 Stage， 并 将 这 些 返 回 的 Stage 都 放 入 parents: 





这 





final def dependencies: Seq[Dependency[_]] = 


{ 


checkpointRDD.map(r => List (new OneToOneDependency(r))).getOrElse { 


if (dependencies_ == null) { 
dependencies_ = getDependencies 
} 
dependencies_ 
} 
} 
3. 获 取 map 任 务 对 应 Stage 




















getShuffleMapSstage 方 法 ( 见 代码 清单 5-29) 








1) 如 果 已 经 注册 了 ShuffleDependency 对 应 的 Stage， 则 直接 返回 此 Stage。 











获取 或 者 创建 Stage 并 注册 到 shuffle-ToMapStage: HashMap[Int，Stage] 中 ， 处 理 步 又 如 下 。 























2) 否则 调用 registerShuffleDependencies 方 法 找到 所 有 祖先 中 ， 还 没有 为 其 注册 过 stage 的 ShuffleDependency， 调 用 方法 newOrUsedSstage 创 建 Stage 并 注册 。 最 后 还 会 为 当前 








ShuffleDependency， 调 用 方法 newOrUsedStage 创 建 、 注 册 并 返回 此 Stage。 


代码 清单 5-29 getShuffleMapStage 方 法 的 实现 








private def getShuffleMapStage(shuffleDep: ShuffleDependency[ 
shuffleToMapStage.get (shuffleDep.shuffleId) match { 


case Some(stage) => stage 
case None => 


registerShuffleDependencies (shuffleDep, jobId) 


val stage = 
newOrUsedStage ( 


_], jobId: Int): Stage 


shuffleDep.rdd, shuffleDep.rdd.partitions.size, shuffleDep, jobId, 


shuffleDep. rdd.creationSite) 
shuffleToMapStage (shuffleDep.shuffleId) = stage 


stage 
} 


} 
private def registerShuffleDependencies (shuffleDep: ShuffleDependency[_, 


val parentsWithNoMapStage = getAncestorShuffleDependencies (shuffleDep. rdd) 


while (!parentsWithNoMapStage.isEmpt: 


val currentShufDep = parentsWithNoMapStage.pop () 


val stage = 
newOrUsedStage ( 


currentShufDep.rdd, currentShufDep.rdd.partitions.size, currentShufDep, jobId, 


currentShufDep. rdd.creationSite) 


shuffleToMapStage (currentShufDep.shuffleld) 





y) 














= 


, _], jobId: Int) = { 


getAncestorShuffleDependencies 用 来 找到 RDD 直 接 或 者 间接 依赖 的 所 有 祖先 中 ， 还 没有 为 其 注册 过 Stage 的 ShuffleDependency， 见 代码 清单 5-30。 











代码 清单 5-30 getAncestorShuffleDependencies 的 实现 














private def getAncestorShuffleDependencies (rdd: RDD[_]): 
val parents = new Stack[ShuffleDependency[_, _ 


val visited = new HashSet [RDD[_]] 


Stack[Shuffle-Dependency[_, _, 


// We are manually maintaining a stack here to prevent StackOverflowError 


// caused by recursively visiting 
val waitingForVisit = new Stack[RDD[_]] 
def visit(r: RDD[_]) { ~ 
if (!visited(r)) { 
visited += r 
for (dep <- r.dependencies) { 
dep match { 


case shufDep: ShuffleDependency[_, _, 


if (!shuffleToMapStage.contains (shufDep.shuffleId)) { 


parents .push (shufDep) 


} 


waitingForVisit.push (shufDep. rdd) 


case _ => 


waitingForVisit.push (dep. rdd) 


} 

} 

waitingForVisit.push (rdd) 

while (!waitingForVisit.isEmpty) { 
visit (waitingForVisit.pop()) 

} 


parents 














newOrUsedStage 方 法 ( 见 代码 清单 5-31) : 首先 调用 newStage 创 建 Stage (前 面 已 有 说 明 ， 不 再 歼 述 ) ， 然 后 将 ShuffleDependency 的 shuffleld 和 partitions 的 Size 注册 到 Map- 
OutputTrackerMaster 的 mapStatuses = new Time-StampedHashMapl[Int，Array[MapStatus]] () P. 

















代码 清单 5-31 newOrUsedStage 方 法 的 实现 





private def newOrUsedStage ( 
rdd: RDD[_]， 
numTasks: Int, 
shuffleDep: ShuffleDependency[_, _, _], 
jobId: Int, a 
callSite: CallSite) 
: Stage = 


val stage = newStage(rdd, numTasks, Some(shuffleDep), jobId, callSite) 
if (mapOutputTracker.containsShuffle(shuffleDep.shuffleId)) { 
val serLocs = mapOutputTracker.getSerializedMapOutputStatuses (shuffleDep.shuffleld) 
val locs = MapOutputTracker.deserializeMapStatuses (serLocs) 
for (i <- 0 until locs.size) { 
stage.outputLocs (i) = Option (locs (i)) .toList // locs(i) will be null if missing 
} 
stage.numAvailableOutputs = locs.count(_ != null) 
} else { 
mapOutputTracker. registerShuffle(shuffleDep.shuffleId, rdd.partitions.size) 
} 
stage 

















很 多 地 方 都 调用 了 newStage 创 建 Stage， 从 代码 清单 5-32 来 看 看 Stage 的 数据 结构 。 








代码 清单 5-32 ”stage 的 数据 结构 





private[spark] class Stage (val id: Int, val rdd: RDD[_], val numTasks: Int, 
val shuffleDep: Option[ShuffleDependency[_, _, _]],// Output shuffle if stage is a map stage 
val parents: List[Stage], val jobId: Int, val callSite: CallSite) extends Logging { 
val isShuffleMap = shuffleDep.isDefined 
val numPartitions = rdd.partitions.size 
val outputLocs = Array.fill[List [MapStatus] ] (numPartitions) (Nil) 
var numAvailableOutputs = 0 
val jobIds = new HashSet [Int] 
var resultOfJob: Option[ActiveJob] = None 
var pendingTasks = new HashSet [Task[_]] 
private var nextAttemptId = 0 
val name = callSite.shortForm 
val details = callSite.longForm 
var latestInfo: StageInfo = StageInfo.fromStage (this) 











Stage 的 构造 过 程 中 调用 了 Stagelnfo 的 fromStage 方 法 ( 见 代码 清单 5-33) 创建 Stagelnfo。 























代码 清单 5-33 ”fromstage 方 法 的 实现 





def fromStage (stage: Stage, numTasks: Option[Int] = None): StageInfo = { 

val ancestorRddInfos = stage.rdd.getNarrowAncestors.map (RDDInfo. fromRdd) 
val rddInfos = Seq(RDDInfo.fromRdd(stage.rdd)) ++ ancestorRddInfos 
new StageInfo( 

stage.id, 

stage.attemptid, 

stage.name, 

numTasks.getOrElse (stage.numTasks) , 

rddinfos, 

stage.details) 





创建 stagelnfo 的 步骤 如 下 : 














1) 调用 getNarrowAncestors 方 法 获取 RDD 的 所 有 直接 或 者 间接 的 NarrowDependency 的 RDD， 见 代码 清单 5-34。 








代码 清单 5-34 getNarrowAncestors 的 实现 


private[spark] def getNarrowAncestors: Seq[RDD[_]] = { 
val ancestors = new mutable.HashSet[RDD[ ]] 
def visit (rdd: RDD[_]) { J 
val narrowDependencies = rdd.dependencies.filter(_.isInstanceOf [NarrowDependency[_]]) 
val narrowParents = narrowDependencies.map (_.xdd)~ ~ 
val narrowParentsNotVisited = narrowParents.filterNot (ancestors.contains) 
narrowParentsNotVisited.foreach { parent => 
ancestors .add (parent) 
visit (parent) 


} 


visit (this) 
ancestors.filterNot(_ == this) .toSeq 


返回 的 Seq[RDDI[ ]] 全 部 map 到 RDDInfo.fromRdd 方 法 ， 生 成 RDDInfo， 代 码 如 下 。 





def fromRdd(rdd: RDD[_]): RDDInfo = { 
val rddName = Option (rdd.name) .getOrElse (rdd.id.toString) 
new RDDInfo(rdd.id, rddName, rdd.partitions.size, rdd.getStorageLevel) 














2) 对 当前 stage 的 RDD 调 用 RDDInfo.fromRdd 方 法 ， 也 生成 RDDlnfo， 然 后 所 有 生成 的 RDDInfo 都 合 入 rddlnfos 中 。 





3) 创建 当前 Stage 的 Stagelnfo。 

















回头 看 看 代码 清单 5-26 中 调用 的 updateJobldStageldMaps 方 法 ， 它 的 功能 如 下 : 
































通过 迭代 调用 内 部 的 updateJobldSstageldMapsList 函 数 ， 最 终 将 jobl1d 添 加 到 Stage 及 它 的 所 有 祖先 Stage 的 映射 joblds = new HashSet[Int] 中 ， 将 jobld 和 Stage 及 它 的 所 有 祖先 Stage 的 id， 更 新 到 
jobldToStagelds = new HashMap[lnt，Hashset[lnt] 中 。updatejJobldstageldMaps 的 实现 见 代 码 清单 5-35。 


代码 清单 5-35 ” updateJobldStageldMaps 的 实现 





private def updateJobIdStageIdMaps (jobId: Int, stage: Stage) { 
def updateJobIdStageIdMapsList (stages: List[Stage]) { 
if (stages.nonEmpty) { 
val s = stages.head 


s.jobIds += jobId 


jobIdToStageIds.getOrElseUpdate (jobId, new HashSet [Int] ()) += s.id 
val parents: List [Stage] = getParentStages(s.rdd, jobId) 
val parentsWithoutThisJobId = parents.filter { ! _.jobIds.contains (jobId) } 


updateJobIdStageIdMapsList (parentsWithoutThisJobId ++ stages.tail) 
} 


$ 
updateJobIdStageIdMapsList (List (stage) ) 











本 例 中 ， 最 终 划分 的 stage 可 以 用 图 5-8 表 示 。 
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图 5-8 本 例 最 终 划 分 的 Stage 


5.4.3 创建 Job 





Activejob 的 定义 见 代 码 清单 5-36。 这 里 对 其 中 的 一 些 定义 做 些 解释 : 
“ numPartitions: 任务 的 分 区 数量 。 
“ finished: 标识 每 个 partition 相 关 的 任务 是 否 完成 。 
- numFinished: 已 经 完成 的 任务 数 。 


代码 清单 5-36 ActiveJob 的 定义 





private[spark] class ActiveJob ( 
val jobId: Int, 
val finalStage: Stage, 
val func: (TaskContext, Iterator[_]) => _, 
val partitions: Array[Int], ~ 
val callSite: CallSite, 
val listener: JobListener, 
val properties: Properties) { 
val numPartitions = partitions.length 
val finished = Array.fill [Boolean] (numPartitions) (false) 
var numFinished = 0 





我 们 回头 看 看 SparkListenerJobStart 事 件 的 处 理 ， 从 代码 清单 3-16 可 以 看 到 ，Spark-ListenerBus 的 sparkListeners (比如 JobProgressListener) 中 ， 凡 是 实现 了 onJobStart 方 法 的 ， 将 被 处 理 。 


544 提交 Stage 


在 提交 finalStage 之 前 ， 如 果 存 在 没有 提交 的 祖先 Stage， 则 需要 先 提交 所 有 没有 提交 的 祖先 Stage。 每 个 Stage 提 交 之 前 ， 如 果 存 在 没有 提交 的 祖先 Stage， 都 会 先 提交 祖先 Stage， 并 且 将 子 Stage 放 
入 waitingStages = new Hashset[Stage] 中 等 待 ， 如 果 不 存在 没有 提交 的 祖先 stage， 则 提交 所 有 未 提交 的 Task。 提 交 Stage 的 实现 见 代码 清单 5-37。 





代码 清单 5-37 ”提交 Stage 的 实现 





private def submitStage(stage: Stage) { 
val jobId = activeJobForStage (stage) 
if (jobId.isDefined) { 
logDebug ("submitStage(" + stage + ")") 
if (!waitingStages (stage) && !runningStages (stage) && !failedStages(stage)) { 
val missing = getMissingParentStages (stage) .sortBy (_.id) 
logDebug("missing: " + missing) 
if (missing == Nil) { 
logInfo("Submitting " + stage + " (" + stage.rdd + "), which has no missing parents") 
submitMissingTasks (stage, jobId.get) 
} else { 
for (parent <- missing) { 
submitStage (parent) 
} 
waitingStages += stage 
} 


} else { 
abortStage (stage, "No active job for stage " + stage.id) 
} 

















getMissingParentStages 方 法 用 来 找到 Stage 的 所 有 不 可 用 的 祖先 Stage， 见 代码 清单 5-38。 








代码 清单 5-38 getMissingParentStages 方 法 的 实现 


private def getMissingParentStages (stage: Stage): List[Stage] = { 
val missing = new HashSet [Stage] 
val visited = new HashSet [RDD[_]] 
val waitingForVisit = new Stack[RDD[_]] 
def visit(rdd: RDD[_]) { T 
if (!visited(rdd)) { 
visited += rdd 
if (getCacheLocs (rdd) .contains (Nil)) { 
for (dep <- rdd.dependencies) { 
dep match { 
case shufDep: ShuffleDependency[_, _, => 


val mapStage = getShuffleMapStage(shufDep, stage.jobId) 


if (!mapStage.isAvailable) { 
missing += mapStage 
} 
Case narrowDep: NarrowDependency[_] => 
waitingForVisit.push (narrowDep.rdd) 


} 


} 
} 
waitingForVisit.push (stage.rdd) 
while (!waitingForVisit.isEmpty) { 
visit (waitingForVisit.pop () ) 
} 


missing.toList 



































如 何 判断 stage 可 用 ? 它 的 判断 十 分 简单 : 如 果 Stage 不 是 Map 任 务 ， 那 么 它 是 可 











的 ; 否则 它 的 已 经 输出 计算 结果 的 分 区 任务 数量 要 和 分 





区 数 一 样 ， 即 所 有 分 区 上 的 子 任务 都 要 完成 。 














判断 逻辑 如 下 。 





def isAvailable: Boolean = { 
if (!isShuffleMap) { 
true 
} else { 
numAvailableOutputs == numPartitions 
} 



































回头 看 看 handleJobSubmitted 方 法 中 调用 的 submitWaitingStages 方 法 ，submitWaitingStages 实 际 上 循环 waitingStages 中 的 Stage 并 调用 submitStage， 实 现 如 下 。 











val waitingStagesCopy = waitingStages.toArray 

waitingStages.clear () 

for (stage <- waitingStagesCopy.sortBy(_.jobId)) { 
submitStage (stage) a 

} 





54.5 ”提交 Task 

















提交 Task 的 入 口 是 submitMissingTasks 函 数 ， 此 函数 在 Stage 没 有 不 可 用 的 祖先 Stage 时 ， 被 调用 处 理 当 前 Stage 未 提交 的 任务 。 

















1. 提 交还 未 计算 的 任务 

submitMissingTasks 用 于 提交 还 未 计算 的 任务 。 在 分 析 submitMissingTasks 之 前 ， 
- pendingTasks: 类 型 是 HashSet[Task[]j， 存 储 有 待 处 理 的 Task。 

:MapStatus: 包括 执行 Task 的 BlockManager 的 地 址 和 要 传 给 reduce 任 务 的 Block 的 估算 
outputLocs: 如 果 Stage 是 map 任 务 ， 则 outputLocs 记 录 每 个 Partition 的 MapStatus。 


通过 对 代码 清单 5-39 的 分 析 ，submitMissingTasks 的 执行 过 程 总 结 如 下 。 














先 对 一 些 定义 进行 描述 : 


大 小 。 





























1) 清空 pendingTasks。 由 于 当前 Stage 的 任务 刚 开 始 提 交 ， 所 以 需要 清空 ， 便 于 记录 需要 计算 的 任务 。 





2) 找 出 还 未 计算 的 partition (如 果 Stage 是 map 任 务 ， 那 么 outputLocs 中 partition 对 应 的 List[MapStatus] 为 Nil， 








finajJob， 并 调用 finished 方 法 判断 每 个 partition 的 任务 是 否 完成 ) 。 








3) 将 当前 Stage 加 入 运行 中 的 Stage 集 合 (runningStages: HashSet[Stage]) 中 。 








4) 使 用 Stagelnfo.fromStage 方 法 创建 当前 Stage 的 latestInfo (Stagelnfo) 。 














5) 向 listenerBus 发 送 SparkListenerStageSubmitted 事 件 。 


说 明 此 partition 还 未 计算 。 如 果 Stage 不 是 map 任 务 ， 那 么 需要 获取 Stage 的 

















6) 如 果 Stage 是 map 任 务 ， 那 么 序列 化 stage 的 RDD 及 ShuffleDependency。 如 果 Stage 不 是 map 任 务 ， 那 么 序列 化 Stage 的 RDD 及 resultOfjob 的 处 理 函 数 。 这 些 序列 化 得 到 的 字 节 数组 最 后 需要 使 


sc.broadcast 进 行 广播 。 


7) 如 果 Stage 是 map 任 务 ， 则 创建 ShuffleMapTask， 否 则 创建 ResultTask。 还 未 计算 的 partition 个 数 决定 了 最 终 创建 的 Task 个 数 。 并 将 创建 的 所 有 Task 都 添加 到 Stage 的 pending-Tasks 中 。 








8) 利用 上 一 步 创 建 的 所 有 Task、 当 前 Stage 的 id、jobld 等 信息 创建 TaskSet， 并 调 








代码 清单 5-39 submitMissingTasks 的 实现 











用 taskScheduler 的 submitTasks， 批 量 提 交 Stage 及 : 


所 有 Task。 








Private def submitMissingTasks (stage: Stage, jobId: Int) { 
stage.pendingTasks.clear () 
val partitionsToCompute: Seq[Int] = { 
if (stage.isShuffleMap) { 
(0 until stage.numPartitions) .filter(id => stage.outputLocs (i 
} else { 
val job = stage.resultOfJob.get 
(0 until job.numPartitions) .filter(id => !job.finished (id) ) 
} 
} 
val properties = if (jobIdToActiveJob.contains(jobId)) { 
jobIdToActiveJob (stage. jobId) .properties 
} else { 
null 
} 


d) == Nil) 








runningStages += stage 
stage.latestInfo = StageInfo.fromStage(stage, Some (partitionsToCompute.size) ) 
listenerBus.post (SparkListenerStageSubmitted(stage.latestInfo, properties) ) 
var taskBinary: Broadcast [Array[Byte]] = null 
try { 

val taskBinaryBytes: Array[Byte] = 

if (stage.isShuffleMap) { 


closureSerializer.serialize((stage.rdd, stage.shuffleDep.get) : AnyRef). array() 
} else { 
closureSerializer.serialize((stage.rdd, stage.resultOfJob.get.func) : AnyRef) .array() 


} 

taskBinary = sc.broadcast (taskBinaryBytes) 

} catch { 

case e: NotSerializableException => 
abortStage (stage, "Task not serializable: " + e.toString) 
runningStages -= stage 
return 

case NonFatal(e) => 
abortStage (stage, s"Task serialization failed: $e\n${e.getStackTraceString}") 
runningStages -= stage 
return 


val tasks: Seq[Task[_]] = if (stage.isShuffleMap) { 
partitionsToCompute.map { id => 
val locs = getPreferredLocs (stage.rdd, id) 
val part = stage.rdd.partitions (id) 
new ShuffleMapTask(stage.id, taskBinary, part, locs) 


} 
} else { 
val job = stage.resultOfJob.get 
partitionsToCompute.map { id => 
val p: Int = job.partitions (id) 
val part = stage.rdd.partitions (p) 
val locs = getPreferredLocs (stage.rdd, p) 
new ResultTask(stage.id, taskBinary, part, locs, id) 
} 
} 
if (tasks.size > 0) { 
try { 
closureSerializer.serialize (tasks .head) 
} catch { 
case e: NotSerializableException => 
abortStage (stage, "Task not serializable: " + e.toString) 
runningStages -= stage 
return 
case NonFatal (e) => // Other exceptions, such as IllegalArgumentException from Kryo. 
abortStage (stage, s"Task serialization failed: $e\n${e.getStackTraceString}") 


runningStages -= stage 
return 
logInfo ("Submitting " + tasks.size + " missing tasks from" + stage + " (" + stage.rdd + ")") 


stage.pendingTasks ++= tasks 
logDebug ("New pending tasks: " + stage.pendingTasks) 
taskScheduler.submitTasks ( 
new TaskSet (tasks.toArray, stage.id, stage.newAttemptId(), stage.jobId, properties) ) 
stage. latestInfo.submissionTime = Some (clock.getTime () ) 
} else { 
listenerBus .post (SparkListenerStageCompleted (stage. latestInfo) ) 
logDebug ("Stage " + stage + " is actually done; %b %d %d". format ( 
stage.isAvailable, stage.numAvailableOutputs, stage.numPartitions) ) 
runningStages -= stage 





submitTasks 方 法 ( 见 代码 清单 5-40) 提交 任务 主要 分 为 以 下 步骤 。 
1) 构建 任务 集 管 理 器 。 即 将 TaskScheduler、TaskSet 及 最 大 失败 次 数 (maxTaskFailures) 封装 为 TaskSetManager。 


2) 设置 任务 集 调度 策略 (调度 模式 有 FAIR 和 FiFO 两 种 ， 此 处 以 默认 的 FiFO 为 例 ) 。 将 TaskSetManager 添 加 到 FiFOSchedulableBuilder 中 ， 代 码 如 下 。 





override def addTaskSetManager (manager: Schedulable, properties: Properties) { 
rootPool .addSchedulable (manager) 
} 





实际 上 是 把 TaskSetManager 加 入 rootPoo| 的 先进 先 出 (FiFO) 的 调度 队列 schedulable-Queue 和 schedulableNameToSschedulable 中 ， 并 且 设 置 TaskSetManager 的 parent 是 Pool， 见 代码 清单 5- 





41。 
Oze 


由 于 同时 可 能 有 多 个 任务 提交 ， 所 以 需要 一 种 调度 策略 来 决定 究竟 先 提 交 哪 个 任务 集 ， 例 如 本 例 中 的 FiFO 调 度 策略 。 











3) 资源 分 配 。 调 用 LocalBackend 的 reviveOffers 方 法 ( 见 代码 清单 3-30) ， 实 际 向 local-Actor 发 送 ReviveOffers 消 息 。localActor 对 ReviveOffers 消 息 的 
36) 。 








代码 清单 5-40 submitTasks 方 法 的 实现 








匹配 执行 reviveOffers 方 法 ( 见 代码 清单 3- 





override def submitTasks (taskSet: TaskSet) { 
val tasks = taskSet.tasks 
logInfo ("Adding task set " + taskSet.id + " with " + tasks.length + " tasks") 
this.synchronized { 
val manager = new TaskSetManager (this, taskSet, maxTaskFailures) 
activeTaskSets (taskSet.id) = manager 
schedulableBuilder.addTaskSetManager (manager, manager.taskSet.properties) 
; // 省 略 部 分 代码 


backend. reviveOffers () 


代码 清单 5-41 addSchedulable 方 法 的 实现 





override def addSchedulable (schedulable: Schedulable) { 
require (schedulable != null) 
schedulableQueue.add (schedulable) 
schedulableNameToSchedulable.put (schedulable.name, schedulable) 
schedulable.parent = this 





reviveOffers ( 见 代码 清单 5-42) 的 处 理 步骤 如 下 : 








1) 使 用 Executorld、ExecutorHostName、freeCores (空闲 CPU 核 数 ) 创建 WorkerOffer; 














2) 调用 TaskSchedulerlImpl 的 resourceOffers 方 法 分 配 资源 ; 








3) 调 














Executor 的 launchTask 方 法 运行 任务 。 








代码 清单 5-42 LocalBackend.reviveOffers 的 实现 





def reviveOffers() { 
val offers = Seq(new WorkerOffer (localExecutorId, localExecutorHostname, freeCores) ) 
val tasks = scheduler.resourceOffers (offers) .flatten 
for (task <- tasks) { 
freeCores -= scheduler.CPUS_PER_TASK 
executor. launchTask (executorBackend, task.taskId, task.name, task.serializedTask) 
} 
if (tasks.isEmpty && scheduler.activeTaskSets.nonEmpty) { 
// Try to reviveOffer after 1 second, because scheduler may wait for locality timeout 
context .system. scheduler .scheduleOnce (1000 millis, self, ReviveOffers) 
} 
} 
2. 资 源 分 配 


resourceOffers 方 法 ( 见 代码 清单 5-43) 


1) 


Oza 











于 Task 任 务 的 资源 分 配 ， 其 处 理 步骤 如 下 。 








标记 Executor 与 host 的 关系 ， 增 加 激活 的 Executor 的 id， 按 照 host 对 Executor 分 组 ， 并 向 DAGSchedulerEventProcessActor 发 送 ExecutorAdded 事 件 等 。 


这 里 的 activeExecutorIds、executorsByHost 及 hostsByRack 是 为 了 在 后 续 计 算 本 地 化 时 使 用 。 


N 


3) 


4 


5) 





7) 任务 分 配 到 相应 的 host 和 Executor 后 ， 将 taskld 与 TaskSetld 的 关系 、taskld 与 Executorld 的 关系 、executors 与 Host 的 分 组 关系 等 更 新 并 且 将 availableCpus 数 


计算 资源 的 分 配 与 计算 。 对 所 有 WorkerOffer 随 机 洗 牌 ， 避 免 将 任务 总 是 分 配给 同样 的 WorkerOffer。 

















根据 每 个 WorkerOffer 的 可 





的 CPU 核 数 创建 同等 尺寸 的 任务 描述 (TaskDescription) 数组 。 


al] 























将 每 个 WorkerOffer 的 可 用 的 CPU 核 数 统计 到 





可 用 CPU (availableCpus) 数组 中 。 








E] 











对 rootPool 中 的 所 有 TaskSetManager 按 照 调 度 算法 排序 (本 例 中 为 FiFO 调 度 算法 ) 。 




















(CPUS PER_TASK) 。 


8) 


返回 第 3) 步 生 成 的 TaskDescription 列 表 。 


代码 清单 5-43 Task 任务 的 资源 分 配 实现 


调用 每 个 TaskSetManager 的 resourceOffer 方 法 ， 根 据 WorkerOffer 的 Executorld 和 host 找 到 需要 执行 的 任务 并 进一步 进行 资源 处 理 。 











减 去 每 个 任务 分 配 的 CPU 核 数 

















def 


resourceOffers (offers: Seq[WorkerOffer]): 
var newExecAvail = false 
for (o <- offers) { 
executorIdToHost (o.executorId) = o.host 
activeExecutorIds += 0o.executorId 
if (!executorsByHost.contains(o.host)) { 
executorsByHost (o.host) = new HashSet [String] () 
executorAdded (o.executorId, o.host) 
newExecAvail = true 


Seq[Seq[TaskDescription]] = synchronized { 


} 
for (rack <- getRackForHost (o.host)) { 
hostsByRack.getOrElseUpdate (rack, new HashSet [String] ()) += o.host 


} 


val shuffledOffers = Random. shuffle (offers) 
val tasks = shuffledOffers.map(o => new ArrayBuffer[TaskDescription] (o.cores) ) 
val availableCpus = shuffledOffers.map(o => o.cores) .toArray 
val sortedTaskSets = rootPool.getSortedTaskSetQueue 
for (taskSet <- sortedTaskSets) { 
logDebug ("parentName: %s, name: %s, runningTasks: %s". format ( 
taskSet.parent.name, taskSet.name, taskSet.runningTasks) ) 
if (newExecAvail) { 
taskSet.executorAdded () 
} 


var launchedTask = false 
for (taskSet <- sortedTaskSets; maxLocality <- taskSet.myLocalityLevels) { 
do { 
launchedTask = false 
for (i <- 0 until shuffledOffers.size) { 
val execId = shuffledOffers (i) .executorId 
val host = shuffledOffers (i) .host 
if (availableCpus (i) >= CPUS PER TASK) { 
for (task <- taskSet.resourceOffer(execId, host, maxLocality)) { 
tasks (i) += task 
val tid = task.taskId 
taskIdToTaskSetId(tid) = taskSet.taskSet.id 
taskIdToExecutorId(tid) = execId 
executorsByHost (host) += execId 
availableCpus (i) -= CPUS_PER_TASK 
assert (availableCpus(i) >= 0) 
launchedTask = true 


} 
} 
} while (launchedTask) 
} 
if (tasks.size > 0) { 
hasLaunchedTask = true 


} 


return tasks 














DAGSchedulerEventProcessActor 会 将 ExecutorAdded 事 件 匹配 执行 DagScheduler 的 handleExecutorAdded 方 法 ， 
代码 清单 5-44。 


代码 清单 5-44 handleExecutorAdded 的 实现 


private[scheduler] def handleExecutorAdded(execId: String, host: String) { 


if (failedEpoch.contains(execId)) { 
logInfo("Host added was in lost list earlier: " + host) 
failedEpoch -= execId 


} 
submitWaitingStages () 




















于 将 跟踪 失败 的 节 








恢复 正常 和 提交 等 待 中 的 Stage， 见 代码 清单 3-35 和 


3.Worker 任 务 分 配 











resourceOffer 方 法 ( 见 代码 清单 5-45) 用 于 给 Worker 分 配 Task， 其 处 理 步 又 如 下 : 

















1) 获取 当前 任务 集 允 许 使 用 的 本 地 化 级 别 。 











2) 调用 findTask 寻 找 Executor、Host、pendingTasksWithNoPrefs 中 有 待 运行 的 task。 


3) 创建 Tasklnfo， 并 对 task、addedFiles、addedjars (file 和 jar 是 如 何 添加 到 Spark-Context 的 ， 在 3.12 节 中 介绍 过 ) 进行 序列 化 。 














4) 调用 DagScheduler 的 taskStarted 方 法 ， 笔 者 认为 此 处 方法 名 不 当 ， 因 为 taskStarted 的 功能 是 向 DAGSchedulerEventProcessActor 发 送 BeginEvent 事 件 ， 它 的 实现 如 下 。 











def taskStarted(task: Task[ ], taskInfo: TaskInfo) { 


eventProcessActor ! BeginEvent (task, taskInfo) 


} 














DAGSchedulerEventProcessActor 在 接收 BeginEvent 事 件 后 ,调用 了 dagScheduler 的 方法 handleBeginEvent， 见 代码 清单 3-35。handleBeginEvent 方 法 通过 发 送 SparkListenerTaskStart 事 
listenerBus， 用 以 各 种 监听 器 更 新 SparkUI 的 显示 ， 见 代码 清单 5-46。 
































5) 最 终 封 装 TaskDescription 对 象 并 返回 。 





代码 清单 5-45 ”resourceOffer 的 实现 





def resourceOffer ( 
execId: String, 
host: String, 
maxLocality: TaskLocality.TaskLocality) 
: Option[TaskDescription] = 


if (!isZombie) { 
val curTime = clock.getTime () 
var allowedLocality = maxLocality 
if (maxLocality != TaskLocality.NO PREF) { 
allowedLocality = getAllowedLocalityLevel (curTime) 
if (allowedLocality > maxLocality) { 
// We're not allowed to search for farther-away tasks 
allowedLocality = maxLocality 
} 
$ 
findTask (execId, host, allowedLocality) match { 
case Some ( (index, taskLocality, speculative)) => { 
val task = tasks (index) 
val taskId = sched.newTaskId() 
copiesRunning (index) += 1 
val attemptNum = taskAttempts (index) .size 
val info = new TaskInfo(taskId, index, attemptNum, curTime, 
execId, host, taskLocality, speculative) 
taskInfos(taskId) = info 
taskAttempts (index) = info :: taskAttempts (index) 
if (maxLocality != TaskLocality.NO_PREF) { 
currentLocalityIndex = getLocalityIndex (taskLocality) 
lastLaunchTime = curTime 
} 
val startTime = Clock.getTime () 
val serializedTask = Task.serializeWithDependencies ( 
task, sched.sc.addedFiles, sched.sc.addedJars, ser) 
if (serializedTask.limit > TaskSetManager.TASK_SIZE_TO_WARN KB * 1024 && 
!emittedTaskSizeWarning) { 
emittedTaskSizeWarning = true 
logWarning(s"Stage ${task.stageId} contains a task of very large size " + 
s"(${serializedTask.limit / 1024} KB). The maximum recommended task size is " + 
s"${TaskSetManager.TASK SIZE TO WARN KB} KB.") 
} 
addRunningTask (taskId) 
val taskName = s"task ${info.id} in stage ${taskSet.id}" 
logInfo ("Starting %s (TID %d, %s, %s, %d bytes)". format ( 
taskName, taskId, host, taskLocality, serializedTask. limit) ) 
sched.dagScheduler.taskStarted (task, info) 
return Some (new TaskDescription(taskId, execId, taskName, index, serializedTask) ) 


case _ => 


代码 清单 5-46 handleBeginEvent 的 实现 





private[scheduler] def handleBeginEvent (task: Task[_], taskInfo: TaskInfo) { 
val stageAttemptId = stageIdToStage.get (task.stageId) .map(_.latestInfo.attemptId) .getOrElse (-1) 
listenerBus.post (SparkListenerTaskStart (task. stageId, stageAttemptid, taskInfo) ) 
submitWaitingStages () 














local 模 式 下 ， 任 务 提交 的 过 程 可 以 用 图 5-9 来 表示 。 
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图 5-9 local 模式 下 的 任务 提交 
4. 本 地 化 分 析 


与 Hadoop 类 似 ，Spark 中 任务 的 处 理 也 要 考虑 数据 的 本 地 性 (Locality) 。Spark 目 前 支持 PROCESS LOCAL (本 地 进程 ) 、NODE_LOCAL (本 地 节点 ) 、NO_PREF (没有 喜好 ) 、 
RACK_LOCAL (本 地 机 架 ) 、ANY (任何 ) 几 种 。 


Spark 涉 及 本 地 性 的 数据 只 有 两 种 ，HadoopRDD 和 数据 源 于 存储 体系 的 RDD ( 即 由 CacheManager 从 BlockManager 中 读 取 ， 或 者 Streaming 数 据 源 RDD) 。 








除了 NO_PREF， 其 他 定义 都 比较 好 理解 。 什 么 是 NO_PREF? 























当 Driver 应 用 程序 刚刚 启动 ，Driver 分 配 获得 的 Executor 很 可 能 还 没有 初始 化 完毕 。 所 以 会 有 一 部 分 任务 的 本 地 化 级 别 被 设置 为 NO_PREF。 如 果 是 ShuffleRDD， 其 本 地 性 始终 为 NO_PREF。 对 于 这 两 
种 本 地 化 级 别 是 NO_PREF 的 情况 ， 在 任务 分 配 时 会 被 优先 分 配 到 非 本 地 节点 执行 ， 达 到 一 定 的 优化 效果 。 














代码 清单 5-45 中 调用 getAllowedLocalityLevel 方 法 来 获取 任务 集 允 许 使 用 的 本 地 化 级 别 。 在 讲解 getAllowedLocalityLevel 之 前 ,我 们 先 介 绍 本 地 化 的 几 个 概念 。 


- myLocalityLevels: 当前 TaskSetManager 允 许 使 用 的 本 地 化 级 别 。 














myLocalityLevels 实 际 是 对 函数 computeValidLocalityLevels 的 引用 ， 代 码 如 下 。 











var myLocalityLevels = computeValidLocalityLevels () 

















computeValidLocalityLevels 方 法 ( 见 代码 清单 5-47) 用 于 计算 有 效 的 本 地 化 级 别 。 以 PROCESS_LOCAL 为 例 ， 如 果 存 在 Executor 中 有 待 执行 的 任务 (pendingTasksForExecutor 不 为 空 ) A 
PROCESS LOCAL 本 地 化 的 等 待 时 间 不 为 0 (调用 getLocalityWait 方 法 获得 ) 县 存在 Executor 已 被 激活 (pendingTasksForExecutor 中 的 Executorld 有 存在 于 TaskScheduler 的 activeExecutorlds 中 的 ) , 
那么 允许 的 本 地 化 级 别 里 包括 PROCESS_LOCAL。 




















代码 清单 5-47 computeValidLocalityLevels 方 法 的 实现 





private def computeValidLocalityLevels(): Array[TaskLocality.TaskLocality] = { 
import TaskLocality.{PROCESS_LOCAL, NODE_LOCAL, NO_PREF, RACK LOCAL, ANY} 
val levels = new ArrayBuffer[TaskLocality.TaskLocality] 
if (!pendingTasksForExecutor.isEmpty && getLocalityWait (PROCESS LOCAL) != 
pendingTasksForExecutor.keySet .exists (sched. isExecutorAlive(_))) { 
levels += PROCESS_LOCAL 站 
} 
if (!pendingTasksForHost.isEmpty && getLocalityWait (NODE LOCAL) != 0 && 
pendingTasksForHost . keySet .exists (sched. hasExecutorsAliveOnHost (_))) { 
levels += NODE_LOCAL 


0 && 


} 
if (!pendingTasksWithNoPrefs.isEmpty) { 
levels += NO_PREF 


} 
if (!pendingTasksForRack.isEmpty && getLocalityWait (RACK LOCAL) != 0 && 
pendingTasksForRack. keySet .exists (sched.hasHostAliveOnRack(_))) { 

levels += RACK_LOCAL 

} 

levels += ANY 

logDebug ("Valid locality levels for " + taskSet + ": " + levels.mkString(", ")) 

levels.toArray 





getLocalityWait 方 法 〈 见 代码 清单 5-48) 用 于 获取 各 个 本 地 化 级 别 的 等 待 时 间 ， 这 些 配 置 如 表 5-1 所 示 。 


表 5-1 getLocalityWait 方 法 的 配置 


ze 名 fi 述 x 认 值 
spark. locality.wait 本 地 化 级 别 的 默认 等 待 时 间 3 000 
spark.locality.wait.process 3 000 
spark. locality.wait.node 本 地 节点 的 等 待 时 间 3 000 
spark. locality.wait.rack 本 地 机 架 的 等 待 时 间 3 000 











Giz 
在 任务 的 运行 时 间 很 长 且 数 量 较 多 的 情况 下 ， 适 当 调 高 这 些 参 数 可 以 显著 提高 性 能 。 然 而 当 这 些 参 数值 都 已 经 超过 任务 的 运行 时 长 时 ， 则 需要 调 小 这 些 参 数 。 


代码 清单 5-48 getLocalityWait 方 法 的 实现 


private def getLocalityWait (level: TaskLocality. 000 Long = { 
val defaultWait = conf.get ("spark.locality.wait", "3000") 
level match { 
case TaskLocality.PROCESS LOCAL => 
conf.get ("spark.locality.wait.process", defaultWait) .toLong 
case TaskLocality.NODE_LOCAL => 
conf.get ("spark.locality.wait.node", defaultWait) .toLong 
case TaskLocality.RACK LOCAL => 
conf.get ("spark.locality.wait.rack", defaultWait) .toLong 
case _ => OL 


+ localityWaits: 本 地 化 级 别 等 待 时 间 。 


localityWaits 实 际 是 对 myLocalityLevels 应 用 getLocalityWait 方 法 获得 ， 代 码 如 下 。 





var localityWaits = myLocalityLevels.map (getLocalityWait) // Time to wait at each level 








现在 一 起 分 析 getAllowedLocalityLevel 方 法 ( 见 代码 清单 5-49) ， 它 的 处 理 步骤 如 下 : 








1) 根据 当前 本 地 化 级 别 索 引 (currentLocalityIndex 刚 开始 为 0) ， 获 取 此 本 地 化 级 别 的 等 待 时 长 ; 








2) 如 果 当 前 时 间 与 上 次 运行 本 地 化 时 间 (lastLaunchTime) 之 差 大 于 等 于 上 一 步 获 得 的 时 长 并 且 当 前 本 地 化 级 别 索 引 小 于 myLocalityLevels 的 索引 范围 ， 那 么 将 第 1) 步 的 时 长 增加 到 
lastLaunchTime 中 ， 然 后 使 currentLocalityIndex 增 加 1， 最 后 重新 从 第 1) 步 开始 执行 。 (这 个 过 程 也 称 为 本 地 化 级 别 跳级 。) 














代码 清单 5-49 getAllowedLocalityLevel 的 实现 





private def getAllowedLocalityLevel (curTime: Long): TaskLocality.TaskLocality = { 
while (curTime - lastLaunchTime >= localityWaits(currentLocalityIndex) && 
currentLocalityIndex < myLocalityLevels.length - 1) 
lastLaunchTime += localityWaits (currentLocalityIndex) 
currentLocalityIndex += 1 
} 


myLocalityLevels (currentLocalityIndex) 


} 


经 过 对 Spark 任 务 本 地 化 的 分 析 后 ， 读 者 可 能 觉得 这 样 的 代码 实现 过 于 复杂 ， 并 且 在 获取 本 地 化 级 别 的 时 候 竟然 每 次 都 要 等 待 一 段 本 地 化 级 别 的 等 待 时 长 ， 这 种 实现 未 免 太 过 奇怪 。 正 如 刚 开始 说 的 ， 
任何 任务 都 希望 被 分 配 到 可 以 从 本 地 读 取 数 据 的 节点 上 以 得 到 最 大 的 性 能 提升 。 然 而 每 个 任务 的 运行 时 长 都 不 是 事先 可 以 预料 的 ， 当 一 个 任务 在 分 配 时 ， 如 果 没 有 满足 最 佳 本 地 化 (PROCESS LOCAL) 的 
资源 时 ， 如 果 一 直 固执 地 期 盼 得 到 最 佳 的 资源 ， 很 有 可 能 被 已 经 占用 最 佳 资源 但 是 运行 时 间 很 长 的 任务 耽搁 ， 所 以 这 些 代 码 实现 了 当 没 有 最 佳 本 地 化 时 ， 退 而 求 其 次 选择 稍微 差点 的 资源 。 



































55 ”执行 任务 








调用 Executor 的 launchTask 方 法 ( 见 代码 清单 5-50) 时 ,标志 着 任务 执行 阶段 的 开始 。launchTask 的 执行 过 程 如 下 。 











1) 创建 TaskRunner， 并 将 其 与 taskld、taskName 及 serializedTask 添 加 到 runningTasks=new ConcurrentHashMap[Long，TaskRunnen 中 。 

















2) TaskRunner 实 现 了 Runnable 接 口 (Scala 中 称 为 继承 Runnable 特 质 ) ， 最 后 使 用 线程 池 ( 即 为 3.8.1 节 所 述 的 线程 池 ) 执行 TaskRunner。 























代码 清单 5-50 launchTask 的 实现 


def launchTask ( 
context: ExecutorBackend, taskId: Long, taskName: String, serializedTask: ByteBuffer) { 
val tr = new TaskRunner (context, taskId, taskName, serializedTask) 
runningTasks.put (taskId, tr) 
threadPool.execute (tr) 











我 们 知道 线程 执行 时 ， 会 调用 TaskRunner 的 run 方 法 。run 方 法 的 处 理 动作 包括 状态 更 新 、 任 务 反 序列 化 、 任 务 运行 。 








5.5.1 ”状态 更 新 








调用 execBackend 的 statusUpdate 方 法 更 新 任务 状态 ， 代 码 如 下 。 








execBackend.statusUpdate(taskId, TaskState.RUNNING, EMPTY BYTE BUFFER) 





以 LocalBackend 为 例 ， 实 际 向 LocalActor 发 送 StatusUpdate 消 息 ， 代 码 如 下 。 





override def statusUpdate (taskId: Long, state: TaskState, serializedData: ByteBuffer) { 
localActor ! StatusUpdate(taskId, state, serializedData) 
} 








LocalActor 在 接收 到 StatusUpdate 事 件 时 ， 匹 配 执 行 TaskSchedulerlImplI 的 statusUpdate 方 法 ， 并 根据 Task 的 最 新 状态 做 一 系列 处 理 ， 见 代码 清单 3-36。 


5.5.2 ”任务 还 原 


所 谓 任务 还 原 就 是 将 Driver 提 交 的 Task 在 Executor 上 通过 反 序 列 化 、 更 新 依赖 达到 Task 还 原 效果 的 过 程 。 


对 代码 清单 5-45 中 序列 化 的 serializedTask 执 行 反 序列 化 操作 ， 代 码 如 下 。 








val (taskFiles, taskJars, taskBytes) = Task.deserializeWithDependencies (serializedTask) 





更 新 依赖 的 文件 或 者 jar 包 ， 代 码 如 下 。 





updateDependencies (taskFiles, taskJars) 

















updateDependencies 方 法 〈 见 代码 清单 5-51) 获取 依赖 是 利用 了 Utils.fetchFile 方 法 实现 的 〈fetchFile 的 具体 介绍 请 读者 阅读 附录 A) 。 下 载 的 jar 文 件 还 会 添加 到 Executor 自 身 类 加 载 器 的 URL 中 。 








代码 清单 5-51 ”获取 依赖 的 实现 








private def updateDependencies (newFiles: HashMap[String, Long], newJars: HashMap [String, Long]) { 
lazy val hadoopConf = SparkHadoopUtil.get .newConfiguration (conf) 
synchronized { 
// Fetch missing dependencies 
for ((name, timestamp) <- newFiles if currentFiles.getOrElse(name, -1L) < timestamp) { 
logInfo ("Fetching " + name + " with timestamp " + timestamp) 
// Fetch file with useCache mode, close cache for local mode. 
Utils.fetchFile (name, new File (SparkFiles.getRootDirectory), conf, 
env.securityManager, hadoopConf, timestamp, useCache = !isLocal) 
currentFiles (name) = timestamp 


for ((name, timestamp) <- newJars if currentJars.getOrElse(name, -1L) < timestamp) { 
logInfo ("Fetching " + name + " with timestamp " + timestamp) 
// Fetch file with useCache mode, close cache for local mode. 
Utils.fetchFile (name, new File (SparkFiles.getRootDirectory), conf, 
env.securityManager, hadoopConf, timestamp, useCache = !isLocal) 
currentJars (name) = timestamp 
// Bdd it to our class loader 
val localName = name.split("/") .last 
val url = new File (SparkFiles.getRootDirectory, localName) .toURI.toURL 
if (!urlClassLoader.getURLs.contains(url)) { 
logInfo ("Adding " + url + " to class loader") 
urlClassLoader.addURL (url) 





最 后 将 Task 的 ByteBuffer 反 序列 化 为 Task 实 例 ， 实 现 如 下 。 








task = ser.deserialize[Task[Any]] (taskBytes, Thread.currentThread.getContext-ClassLoader) 





5.5.3 ”任务 运行 











TaskRunner 最 终 调用 Task 的 run 方 法 来 运行 任务 ， 实 现 如 下 。 

















val value = task.run(taskId.toInt) 

















run 方 法 中 创建 了 TaskContextlmpl， 并 且 设 置 到 TaskContext 的 ThreadLocal 中 。 最 后 调用 runTask 方 法 ， 见 代码 清单 5-52。 











代码 清单 5-52 Task.run 的 实现 





final def run (attemptId: Long): T = { 
context = new TaskContextImpl(stageId, partitionId, attemptId, runningLocally = false) 
TaskContextHelper.setTaskContext (context) 
context.taskMetrics.hostname = Utils.localHostName () 
taskThread = Thread.currentThread () 
if (_killed) { 
kill (interruptThread = false) 
} 
try { 
runTask (context) 
} finally { 
context .markTaskCompleted () 
TaskContextHelper.unset () 








在 word count 的 例子 中 ， 首 先 执行 的 Task 是 ShuffleMapTask， 那 么 ShuffleMapTask 的 runTask 方 法 ( 见 代码 清单 5-53) 都 做 了 什么 ? 曾经 介绍 submitMissingTasks 的 时 候 ， 其 中 对 任务 的 RDD 和 
ShuffleDependency 进 行 过 序列 化 操作 ， 现 在 是 时 候 反 序列 化 了 ， 这 样 可 以 得 到 RDD 和 ShuffleDependency。 接 下 来 调用 SortShuffleManager 的 getWriter 方 法 获取 partitionld 指 定 分 























SortShuffleWriter。 之 后 便利 用 此 Writer 将 计算 的 中 间 结 果 写 入 文件 。 


代码 清单 5-53 ”ShuffleMapTask.runTask 的 实现 





区 的 








override def runTask (context: TaskContext): MapStatus = { 

val ser = SparkEnv.get.closureSerializer.newInstance () 

val (rdd, dep) = ser.deserialize[(RDD[_], ShuffleDependency[_, _, _])]( 
ByteBuffer.wrap (taskBinary.value), Thread.currentThread.getContextClassLoader) 

metrics = Some (context.taskMetrics) 

var writer: ShuffleWriter[Any, Any] = null 

try { 
val manager = SparkEnv.get.shuffleManager 
writer = manager.getWriter[Any, Any] (dep.shuffleHandle, partitionId, context) 
writer.write(rdd.iterator (partition, context) .asInstanceOf[Iterator[_ <: Product2[Any, Any]]]) 
return writer.stop(success = true) .get T 

} catch { 
case e: Exception => 


try { 
if (writer != null) { 
writer.stop(success = false) 


} 
} catch { 
case e: Exception => 
log.debug ("Could not stop writer", e) 
} 


throw e 








SortShuffleManager 的 getWriter 实 现 ， 见 代码 清单 5-54。 参 数 mapld 实 际 传 入 的 是 partitionld， 由 此 我 们 可 以 看 到 partition 与 map 任 务 的 关系 。 








SortshuffleWriter 负 责 计算 结果 的 缓存 处 理 及 持久 化 ， 其 内 容 将 在 第 6 章 中 展开 。 我 们 暂时 只 需 理解 的 是 map 任 务 的 Stage 的 任务 执行 结果 将 通过 SortShuffleManager 持 久 化 到 存储 体系 即 可 。RDD 的 
iterator 方 法 触发 任务 计算 ， 笔 者 也 将 在 第 6 章 详 述 。 


代码 清单 5-54 ”SortShuffleManager.getWriter 的 实现 





override def getWriter[K, V] (handle: ShuffleHandle, mapId: Int, context: TaskContext) 
: ShuffleWriter[K, V] = { 
val baseShuffleHandle = handle.asInstanceOf [BaseShuffleHandle[K, V, _]] 
shuffleMapNumber .putIfAbsent (baseShuffleHandle.shuffleId, baseShuffleHandle. numMaps) 
new SortShuffleWriter ( 
shuffleBlockManager, baseShuffleHandle, mapId, context) 





ResultTask 的 runTask 方 法 实现 ， 见 代码 清单 5-62。 





5.6 ”任务 执行 后 续 处 理 


5.6.1 ”计量 统计 与 执行 结果 序列 化 


分 析 代码 清单 5-55， 可 以 看 到 任务 执行 结束 后 ， 还 会 有 以 下 处 理 。 
1) 任务 执行 结果 的 简单 序列 化 。 
2) 计量 统计 ， 需 要 更 新 的 指标 有 : 
+ Executor 反 序列 化 消耗 的 时 间 ; 
+ Executor 实 际 执行 任务 消耗 的 时 间 ; 
Executor 执行 垃圾 回收 消耗 的 时 间 ; 
“Executor 执 行 结果 序列 化 消耗 的 时 间 。 
3) 将 前 两 步 得 到 的 简单 序列 化 结果 和 计量 统计 内 容 封装 为 DirectTaskResult， 然 后 序列 化 。 


代码 清单 5-55 ”计量 统计 及 执行 结果 序列 化 





val taskFinish = System.currentTimeMillis () 

if (task.killed) { 
throw new TaskKilledException 

} 

val resultSer = SparkEnv.get.serializer.newInstance () 

val beforeSerialization = System.currentTimeMillis () 

val valueBytes = resultSer.serialize (value) 

val afterSerialization = System.currentTimeMillis () 

for (m <- task.metrics) { 
m.executorDeserializeTime = taskStart - deserializeStartTime 
m.executorRunTime = taskFinish - taskStart 
m.jvmGCTime = gcTime - startGCTime 
m.resultSerializationTime = afterSerialization - beforeSerialization 


val accumUpdates = Accumulators.values 

val directResult = new DirectTaskResult (valueBytes, accumUpdates, task.metrics.orNull) 
val serializedDirectResult = ser.serialize (directResult) 

val resultSize = serializedDirectResult. limit 





5.6.2 ”内 存 回收 


TaskRunner 的 run 方 法 最 后 还 会 在 finally ( 见 代码 清单 5-56) 中 做 一 些 清理 工作 ， 包 括 : 


1) 释放 当前 线程 通过 ShuffleMemoryManager 获 得 的 内 存 ; 











2) 释放 当前 线程 在 MemoryStore 的 unrollMemoryMap 中 展开 占用 的 内 存 ; 























3) 释放 当前 线程 用 于 聚合 计算 占用 的 内 存 ; 








4) 将 当前 Task 从 runningTasks 中 移 除 。 


代码 清单 5-56 内存 回收 





finally { 
env. shuffleMemoryManager . releaseMemoryForThisThread () 
env.blockManager .memoryStore. releaseUnrol1MemoryForThisThread () 
Accumulators.clear () 
runningTasks . remove (taskId) 





5.6.3 ”执行 结果 处 理 


任务 完成 的 时 候 会 发 送 一 次 statusUpdate 消 息 ，LocalActor 会 先 | 





TaskSchedulerImpl 的 statusUpdate 方 法 〈 见 代码 清单 5-57) 会 从 taskldToTaskSetld、task-ldToExecutorld 中 移 除 此 任务 ， 并 且 调 


代码 清单 5-57 ”执行 结果 处 理 


taskIdToTaskSetId.get (tid) match { 
case Some(taskSetId) => 

if (TaskState.isFinished(state)) { 
taskIdToTaskSetId. remove (tid) 
taskIdToExecutorId. remove (tid) 

} 

activeTaskSets.get (taskSetId) .foreach { taskSet => 
if (state == TaskState.FiNISHED) { 

taskSet . removeRunningTask (tid) 


匹配 执行 TaskScheduler-Impl 的 statusUpdate 方 法 ， 然 后 调 

















reviveOffers 方 法 调 











其 他 的 任务 ， 见 代码 清单 3-36。 




















taskResultGetter 的 enqueueSuccessfulTask 方 法 。 


taskResultGetter.enqueueSuccessfulTask (taskSet, tid, serializedData) 


} else if 
taskSet . removeRunningTask (tid) 


(Set (TaskState.FAILED, TaskState.KILLED, TaskState.LOST) .contains(state)) { 


taskResultGetter.enqueueFailedTask(taskSet, tid, state, serializedData) 


} 
} 


case None => 





taskResultGetter 的 enqueueSuccessfulTask 和 enqueueFailedTask 方 法 ， 分 别 


58) 为 例 。 


代码 清单 5-58 enqueueSuccessfulTask 的 实现 


def enqueueSuccessfulTask ( 











于 处 理 执行 成 功 任务 的 返回 结果 和 执行 失败 任务 的 返回 结果 。 我 们 以 enqueueSuccessfulTask 方 法 〈( 见 代码 清 











taskSetManager: TaskSetManager, tid: Long, serializedData: ByteBuffer) { 


getTaskResultExecutor.execute (new Runnable { 


override def run(): Unit = Utils.logUncaughtExceptions { 
try { 
val (result, size) = serializer.get() .deserialize[TaskResult[_]] (serializedData) match { 
case directResult: DirectTaskResult[_] => 


if (!taskSetManager.canFetchMoreResults (serializedData.limit())) { 


return 
} 
(directResult, serializedData.limit()) 
case IndirectTaskResult (blockId, size) => 
if (!taskSetManager.canFetchMoreResults (size)) 


{ 


sparkEnv.blockManager.master.removeBlock (blockId) 


return 


} 


logDebug ("Fetching indirect task result for TID %s". format (tid) ) 
scheduler.handleTaskGettingResult (taskSetManager, tid) 
val serializedTaskResult = sparkEnv.blockManager.getRemote-Bytes (blockId) 


if (!serializedTaskResult.isDefined) { 


scheduler .handleFailedTask ( 


taskSetManager, tid, TaskState.FiNISHED, TaskResultLost) 


return 


val deserializedResult 
serializedTaskResult.get) 


serializer.get () .deserialize[Direct-TaskResult [_]] ( 


sparkEnv.blockManager.master.removeBlock (blockId) 


(deserializedResult, size) 


result .metrics.resultSize = size 


scheduler.handleSuccessfulTask (taskSetManager, tid, result) 


} catch { 
// 异 常 处 理 代码 省 略 
} 














从 enqueueSsuccessfulTask 的 实现 不 难看 出 其 中 另 起 的 线程 ， 主 要 调 有 








了 TaskScheduler-Impl 的 handleSuccessfulTask 方 法 。TaskSchedulerImpl 的 handleSuccessfulTask 方 法 的 实现 如 下 。 


È 








def handleSuccessfulTask ( 
taskSetManager: TaskSetManager, 
tid: Long, 
taskResult: DirectTaskResult [_]) synchronized { 
taskSetManager.handleSuccessfulTask (tid, taskResult) 





TaskSetManager 的 handleSuccessfulTask 方 法 ( 见 代码 清单 5-59) 对 TaskSet 中 的 任务 信息 进行 成 功 状态 标记 ， 然 后 调 


代码 清单 5-59 TaskSetManager.handleSuccessfulTask 的 实现 

















DagScheduler 的 taskEnded 方 法 。 








def handleSuccessfulTask (tid: Long, result: DirectTaskResult[_]) 


val info taskInfos (tid) 

val index = info.index 
info.markSuccessful () 
removeRunningTask (tid) 

sched. dagScheduler.taskEnded ( 


={ 


tasks (index), Success, result.value(), result.accumUpdates, info, result.metrics) 


tasks-Successful, numTasks) ) 


if (!successful (index)) { 
tasksSuccessful += 1 
logInfo ("Finished task %s in stage %s (TID %d) in %d ms on %s (%d/%d)". format ( 
info.id, taskSet.id, info.taskId, info.duration, info.host, 
// Mark successful and stop if all the tasks have succeeded. 
successful (index) = true 
if (tasksSuccessful == numTasks) { 
isZombie = true 
} 
} else { 


logInfo ("Ignoring task-finished event for " + info.id + " in stage " + task-Set.id + 
" because task " + index + " has already completed successfully") 


} 
failedExecutors. remove (index) 
maybeFinishTaskSet () 





DagScheduler 的 taskEnded 方 法 的 实现 如 下 。 





def taskEnded ( 
task: Task[_], 
reason: TaskEndReason, 
result: Any, 
accumUpdates: Map[Long, Any], 
taskInfo: TaskInfo, 
taskMetrics: TaskMetrics) { 
eventProcessActor! CompletionEvent (task, reason, result, 


accumUpdates, taskInfo, taskMetrics) 





DAGSchedulerEventProcessActor 接 收 CompletionEvent 消 息 ， 将 处 理 交 给 了 handleTask-Completion 
TaskEnd， 代 码 如 下 。 


， 见 代码 清单 3-35。handleTaskCompletion 方 法 首先 向 listenerBus 发 送 SparkListener- 





event.reason match { 
case Success => 
listenerBus.post (SparkListenerTaskEnd(stageId, stage.latestInfo.attemptId, taskType, 
event.reason, event.taskInfo, event.taskMetrics) ) 
stage.pendingTasks -= task 





之 后 的 处 理 





因 Task 类 型 而 不 同 。 
1.ResultTask 任 务 的 结果 处 理 


如 果 是 ResultTask， 那 么 将 执行 代码 清单 5-60 所 示 的 代码 分 支 ， 其 处 理 步骤 如 下 : 














1) 标识 ActivejJob 的 finished 里 对 应 分 区 的 任务 为 完成 状态 ， 并 且 将 已 完成 的 任务 数 numFinished 加 1。 














2) 如 果 ActivejJob 的 所 有 任务 都 完成 ， 则 标记 当前 stage 完成 并 向 listenerBus 发 送 Spark-ListenerJobEnd 丁 











3) 调 














JobWaiter 的 taskSucceeded 方 法 ， 以 便 通知 jobWaiter 有 任务 成 功 。 


代码 清单 5-60 ”ResultTask 的 结果 处 理 


BE. 





task match { 
case rt: ResultTask[_, _] => 
stage.resultOfJob match { 
case Some (job) => 
if (!job. finished (rt.outputId) ) 
updateAccumulators (event) 
job. finished (rt.outputId) 
job.numFinished += 1 
// If the whole job has finished, remove it 
if (job.numFinished == job.numPartitions) { 
markStageAsFinished (stage) 
cleanupStateForJobAndIndependentStages (job) 
listenerBus.post (SparkListenerJobEnd (job.jobId, JobSucceeded) ) 


{ 


true 


} 
try { 


job.listener.taskSucceeded(rt.outputId, event.result) 
} catch { 


case e: Exception => 
job.listener.jobFailed(new SparkDriverExecutionException (e) ) 


} 
} 


case None => 
logInfo ("Ignoring result from " + rt + " because its job has finished") 





JobWaiter 的 taskSucceeded 方 法 ( 见 代码 清单 5-24) ， 其 处 理 步 又 如 下 : 


1) JobWaiter 中 的 resultHandler 实 际 是 代码 清单 5-20 里 的 | 





匿名 函数 (index, res) = >results (index) = 


2) finishedTasks 自 增 ， 当 完成 任务 数 finishedTasks 等 于 全 部 任务 数 totalTasks 时 ， 标 记 job 完 成 ， 并 且 唤 醒 等 待 的 线程 ， 即 执行 代码 清 重 


2.ShuffleMapTask 任 务 的 结果 处 理 


如 果 是 ShuffleMapTask， 那 么 将 执行 代码 清和 





5-61 所 示 的 代码 分 支 ， 其 处 理 步骤 如 下 。 


1) 将 Task 的 partitionld 和 MapStatus 追 加 到 Stage 的 outputLocs 中 。 


2) 将 当前 Stage 标 记 为 完成 ， 然 后 将 当前 Stage 的 shuffleld 和 outputLocs 中 的 MapStatus 注 册 到 mapOutputTracker。 根 据 3.2.3 节 的 内 容 ， 这 里 注册 的 map 任 务 状态 将 最 终 被 reduce 任 务 所 上 


3) 如 果 Stage 的 outputLocs 中 某 个 分 








区 的 输出 为 Nil， 那 么 说 明 有 任务 失败 了 ， 这 时 需要 再 次 提交 此 Stage。 
4) 如 果 不 存在 Stage 的 outputLocs 中 某 个 分 





代码 清单 5-61 ShuffleMapTask 的 结果 处 理 


区 的 输出 为 Nil， 那 么 说 明 所 有 任务 执行 成 功 了 ， 这 时 需要 遍历 waitingStages 中 的 stage 并 将 它们 放 入 runningstages， 最 后 调 有 
法 逐个 提交 这 些 准 备 运 行 的 Stage 的 任务 。 在 word count 例 子 里 ， 由 于 map 任 务 的 Stage 已 经 运行 完成 ， 现 在 运行 的 是 reduce 任 务 的 Stage， 所 以 此 时 调 
ResultTask。 














res， 通 过 回调 此 匿名 函数 ， 将 当前 任务 的 结果 加 入 最 终结 果 集 。 
5-22 中 调用 awaitResult 方 法 的 线程 。 












































submit-MissingTasks 方 
submit-MissingTasks 方 法 则 创建 了 























case smt: ShuffleMapTask => 
updateAccumulators (event) 
val status = event.result.asInstanceOf [MapStatus] 
val execId = status.location.executorId 
logDebug ("ShuffleMapTask finished on " + execId) 
if (failedkpoch.contains(execId) && smt.epoch <= failedEpoch(execId)) { 


logInfo ("Ignoring possibly bogus ShuffleMapTask completion from " + execId) 
} else { 


stage.addOutputLoc(smt.partitionId, status) 
} 
if (runningStages.contains (stage) && stage.pendingTasks.isEmpty) 
markStageAsFinished (stage) 
logInfo ("looking for newly runnable stages") 
logInfo("running: " + runningStages) 
logInfo ("waiting: " + waitingStages) 
logInfo ("failed: " + failedStages) 
if (stage.shuffleDep.isDefined) { 
mapOutputTracker.registerMapOutputs ( 
stage.shuffleDep.get.shuffleld, 


{ 


stage.outputLocs.map(list => if (list.isEmpty) null else list.head) .toArray,changeEpoch = true) 


clearCacheLocs () 
if (stage.outputLocs.exists(_ == Nil)) { 
logInfo("Resubmitting " + stage + " (" + stage.name + 


") because some of its tasks had failed: " + 
stage.outputLocs.zipWithIndex.filter(_._1 == Nil) .map( 

submitStage (stage) iis 

} else { 

val newlyRunnable = new ArrayBuffer [Stage] 

for (stage <- waitingStages) { 
logInfo("Missing parents for " + stage + ": 

} 


for (stage <- waitingStages if getMissingParentStages (stage) == Nil) 
newlyRunnable += stage 
} 


waitingStages --= newlyRunnable 
runningStages ++= newlyRunnable 
for { 


2) .mkString(", ")) 


{ 


" + getMissing-ParentStages (stage) ) 


stage <- newlyRunnable.sortBy(_.id) 
jobId <- activeJobForStage (stage) 


logInfo ("Submitting " + stage + " ("+ stage.rdd + "), which is now runnable") 
submitMissingTasks (stage, jobId) 





ResultTask 的 runTask 方 法 与 ShuffleMapTask 有 很 多 不 同 ， 见 代码 清单 5-62。 


代码 清单 5-62 ”ResultTask.runTask 的 实现 





override def runTask(context: TaskContext): U = { 
// Deserialize the RDD and the func using the broadcast variables. 
val ser = SparkEnv.get.closureSerializer.newInstance () 
val (rdd, func) = ser.deserialize[(RDD[T], (TaskContext, Iterator[T]) => U)]( 
ByteBuffer.wrap (taskBinary.value), Thread.currentThread.getContext-ClassLoader) 
metrics = Some (context.taskMetrics) 
func (context, rdd.iterator (partition, context) ) 








此 处 调用 RDD 的 iterator 方 法 完成 计算 ， 请 参阅 6.5 节 。 最 后 回调 代码 清单 5-18 中 的 偏 函数 (iter: Iterator[T]) = > iter.toArray. 


word count 例 子 最 终 执行 的 结果 如 下 。 


© Console X 办 Tasks “Se Call Hierarchy 
<terminated> JavaWordCount [Java Application] D:\Java\jdk1.7.0_72\bin\javaw.exe (2015 年 6 月 30 日 下 午 1:05:35) 
package: 1 

For: 2 

processing.: 1 

Programs: 1 

Because: 1 

The: 1 

cluster.: 1 

ates=F 

[run: 1 

APIs: 1 


computation: 1 
Try: 1 
have: 1 


through: 1 
several: 1 

This: 2 
“yarn-cluster”: 1 
graph: 1 

Hive: 2 

storage: 1 
[“Specifying: 1 
To: 2 

page ](http://spark.apache.org/documentation.html): 1 
Once: 1 





5.7 Wes 


本 章 首先 从 Spark 为 什么 设计 RDD 入 手 ， 依 次 讲解 RDD 的 实现 分 析 、Stage 的 划分 、 提 交 Stage、 提 交 Task、 任 务 执行 、 执 行 结果 处 理 等 内 容 。 








对 于 资源 分 配 中 涉及 的 本 地 化 实现 ， 本 章 也 做 了 较为 详细 的 分 析 ，Spark 通 过 一 种 阶梯 式 的 本 地 化 策略 ， 在 有 效 利用 资源 、 节 省 网 络 I/O 的 同时 提高 了 系统 执行 的 效率 。 

















容错 能 力 方面 ，Spark 通 过 DAG 构 成 的 有 向 无 环 图 可 以 在 其 中 某 些 任务 执行 失败 的 情况 下 ， 通 过 重新 提交 任务 达到 容错 。 而 那些 执行 成 功 的 任务 由 于 其 结果 数据 已 经 在 缓存 中 ， 所 以 不 用 重复 计算 。 





第 6 章 计算 引擎 


RAR, MLK, HAR. VRPRRL. 
一 一 《鬼谷子 》 
本 章 导读 
Spatk 的 计算 是 一 个 层 层 迭代 的 过 程 。 本 章 将 5.5.3 节 与 5.6.3 两 节 中 有 关 计 算 的 内 容 单 独 抽出 来 ， 是 为 了 让 本 书 的 内 容 及 轮廓 更 清晰 。 读 者 可 以 先 阅读 第 5 章 ， 也 可 以 直接 阅读 本 章 内 容 ， 了 解 计算 的 有 趣 
过 程 。 


RDD 作 为 Spark 对 各 种 数据 计算 模型 的 统一 抽象 ， 被 用 于 迭代 计算 过 程 以 及 任务 输出 结果 的 缓存 读 写 。 在 所 有 MapReduce 框 架 中 ，shuffle 是 连接 map 任 务 和 reduce 任 务 的 桥梁 。map 任 务 的 中 间 输 出 要 作为 
teduce 任 务 的 输入 ， 就 必须 经 过 shuffle，shuffle 的 性 能 优 劣 直接 决定 了 整个 计算 引擎 的 性 能 和 吞吐 量 。 相 比 于 Hadoop 的 MapReduce， 我 们 可 以 看 到 Spatk 提 供 多 种 计算 结果 处 理 的 方式 ， 对 shuffle 过 程 进行 了 优 
化 。 


6.1 


本 章 将 继续 以 word count 为 例 讲解 。 


迭代 计算 








MappedRDD 的 iterator 方 法 实际 是 父 类 RDD 的 iterator 方 法 ， 见 代码 清单 6-1。 如 果 分 区 任务 初次 执行 ， 此 时 还 没有 缓存 ， 所 以 会 调用 computeOrReadCheckpoint 方 法 。 











这 里 需要 说 一 下 iterator 方 法 的 容错 处 理 过 程 : 如 果 某 个 分 区 任务 执行 失败 ， 但 是 其 他 分 区 任务 执行 成 功 ， 可 以 利用 DAG 重 新 调度 。 失 败 的 分 区 任务 将 从 检查 点 恢复 状态 ， 而 那些 执行 成 功 的 分 区 











a 





由 于 其 执行 结果 已 经 缓存 到 存储 体系 ， 所 以 调用 CacheManager 的 getOrCompute 方 法 获取 即 可 ， 不 需要 再 次 执行 。 


代码 清单 6-1 iterator 方 法 实现 





final def iterator(split: Partition, context: TaskContext): Iterator[T] = { 
if (storageLevel != StorageLevel.NONE) { 
SparkEnv.get.cacheManager.getOrCompute (this, split, context, storageLevel) 
} else { 
computeOrReadCheckpoint (split, context) 
} 
} 





CacheManager 的 有 关内 容 已 在 4.10 节 介绍 过 ,我 们 主要 分 析 computeOrReadCheckpoint 方 法 。computeOrReadCheckpoint 在 存在 检查 点 时 直接 获取 中 间 结 果 ， 否 则 需要 调用 compute 继 续 计 


， 代 码 如 下 。 





private[spark] def computeOrReadCheckpoint (split: Partition, context: TaskContext): Iterator[T] = 


if (isCheckpointed) firstParent[T].iterator(split, context) else compute (split, context) 
} 





MappedRDD 的 compute 方 法 实现 如 下 。 





override def compute(split: Partition, context: TaskContext) = 
firstParent[T].iterator (split, context) .map (f) 





， 其 实 也 是 RDD 的 iterator。 





MappedRDD 的 compute 方 法 首先 调用 firstParent 找 到 其 父 RDD (有 关 firstParent 方 法 的 内 容 ， 请 阅读 5.3.2 节 ) ， 本 例 中 MappedRDD 的 父 RDD 为 FlatMappedRDD。FlatMappedRDD 的 iterator 方 




















经 过 RDD 管 道中 对 iterator 和 computeOrReadCheckpoint 的 层 层 调用 ， 最 终 到 达 Hadoop-RDD。 查 看 此 时 的 线程 栈 更 直观 ， 如 图 6-1 所 示 。 














4 y® Daemon Thread [Executor task launch worker-0] (Suspended) 
HadoopRDD< K,V>.compute(Partition, TaskContext) line: 210| 
HadoopRDD<K,V>.compute(Partition, TaskContext) line: 99 
HadoopRDD<KV>(RDD<T>).computeOrReadCheckpoint(Partttion, TaskContext) line: 280 
HadoopRDD<K,V>(RDD<T =).iterator(Partition, TaskContext) line: 247 
MappedRDD<U,T>.compute(Partition, TaskContext) line: 31 

MappedRDD<U,T=(RDD<T =).computeOrReadCheckpoint(Partition, TaskContext) line: 280 
MappedRDD<U,T =(RDD<T=).iterator(Partition, TaskContext) line: 247 
FlatMappedRDD<U,T>.compute(Partition, TaskContext) line: 33 
FlatMappedRDD<U,T>(RDD<T>).computeOrReadCheckpoint(Partition, TaskContext) line: 280 
FlatMappedRDD<U,T»>(RDD<T>=).iterator(Partition, TaskContext) line: 247 
MappedRDD<U,T =.compute(Partition, TaskContext) line: 31 
MappedRDD<U,T>(RDD<T=).computeOrReadCheckpoint(Partition, TaskContext) line: 280 
MappedRDD<U,T>(RDD<T>).iterator(Partition, TaskContext) line: 247 
ShuffleMapTask.runTask(TaskContext) line: 68 

ShuffleMapTask.runTask(TaskContext) line: 41 

ShuffleMapTask(Task<T=).run(long) line: 56 

Executor$TaskRunner.runQ) line: 198 
ThreadPoolExecutor.runWorker(ThreadPoolExecutor$Worker) line: 1145 
ThreadPoolExecutor$Worker.run() line: 615 

Thread.run() line: 745 [local variables unavailable] 











6-1 word count 例 子 的 线程 栈 








HadoopRDD 的 compute 方 法 用 来 创建 Nextlterator 的 匿名 内 部 类 ， 然 后 将 其 封装 为 Interruptiblelterator， 见 代码 清单 6-2。 


代码 清单 6-2 ”HadoopRDD.compute 的 实现 





override def compute (theSplit: Partition, context: TaskContext): Interruptible-Iterator[(K, V)] = { 
val iter = new NextIterator[(K, V)] { 
val split = theSplit.asInstanceOf [HadoopPartition] 
val jobConf = getJobConf () 
val inputMetrics = new InputMetrics (DataReadMethod.Hadoop) 
val bytesReadCallback = if (split.inputSplit.value.isInstanceOf[FileSplit]) { 
SparkHadoopUtil.get .getFSBytesReadOnThreadCal lback ( 
split.inputSplit.value.asInstanceOf[FileSplit].getPath, jobConf) 
} else { 
None 
} 
if (bytesReadCallback.isDefined) { 
context.taskMetrics.inputMetrics = Some (inputMetrics) 
} 
var reader: RecordReader[K, V] = null 
val inputFormat = getInputFormat (jobConf) 
HadoopRDD.addLocalConfiguration (new SimpleDateFormat ("yyyyMMddHHmm") . format (createTime) , 
context.stageId, theSplit.index, context.attemptId.toInt, jobConf) 
reader = inputFormat.getRecordReader (split.inputSplit.value, jobConf, Reporter.NULL) 
context .addTaskCompletionListener{ context => closeIfNeeded() } 
val key: K = reader.createKey () 
val value: V = reader.createValue() 
var recordsSinceMetricsUpdate = 0 
override def getNext() = { 
try { 
finished = !reader.next (key, value) 
} catch { 
case eof: EOFException => 
finished = true 
} 
if (recordsSinceMetricsUpdate == HadoopRDD.RECORDS BETWEEN BYTES READ METRIC_UPDATES 
&& bytesReadCallback.isDefined) { 
recordsSinceMetricsUpdate = 0 
val bytesReadFn = bytesReadCallback.get 
inputMetrics.bytesRead = bytesReadFn () 
} else { 
recordsSinceMetricsUpdate t= 1 


(key, value) 
} 
// 省 略 关闭 RecordReader 的 代码 


new InterruptibleIterator[(K, V)] (context, iter) 





构造 Nextlterator 的 过 程 如 下 : 


GS 


1) 从 broadcast 中 获取 jobConf， 此 处 的 jobConf 正 是 代码 清单 5-3 中 的 hadoopConfiguration 。 
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创建 InputMetrics 用 于 计算 字 节 读 取 的 测量 信息 ， 然 后 在 RecordReader 正 式 读 取 数据 之 前 创建 bytesReadCallback。bytesReadCallback 用 于 获取 当前 线程 从 文件 系统 读 取 的 字 节 数 。 




















3) 获取 inputFormat， 此 处 的 inputFormat 正 是 代码 清单 5-2 中 的 TextInputFormat。 




















4) 使 用 addLocalConfiguration 给 JobConf 添 加 Hadoop 任 务 相关 配置 。addLocalConfiguration 的 实现 见 代 码 清单 6-3。 








代码 清单 6-3 HadoopRDD.addLocalConfiguration 的 实现 





def addLocalConfiguration(jobTrackerId: String, jobId: Int, splitId: Int, attemptId: Int, 

conf: JobConf) { 

val jobID = new JobID(jobTrackerId, jobId) 

val taId = new TaskAttemptID(new TaskID(jobID, true, splitId), attemptId) 

conf.set ("mapred.tip.id", taId.getTaskID.toString) 

conf.set ("mapred.task.id", taId.toString) 

conf.setBoolean ("mapred.task.is.map", true) 

conf.setInt ("mapred.task.partition", splitId) 

conf.set ("mapred.job.id", jobID.toString) 











5) 创建 RecordReader， 调 用 reader.createKey () 和 reader.createValue () 得 到 的 正 是 代码 清单 5-2 中 的 LongWritable 和 Text。 Nextlterator 的 getNext 实 际 是 代理 了 RecordReader 的 next 方 法 并 
且 每 读 取 一 些 记录 后 使 用 bytesReadCallback 更 新 InputMetrics 的 bytesRead 字 段 。 























6) 将 Nextlterator 封 装 为 Interruptiblelterator。 


Interruptiblelterator 只 是 对 Nextlterator 的 代理 ， 见 代码 清单 6-4。 





代码 清单 6-4 Interruptiblelterator 的 实现 





class InterruptibleIterator[+T] (val context: TaskContext, val delegate: Iterator[T]) 
extends Iterator[T] { 
def hasNext: Boolean = { 
if (context.isInterrupted) { 
throw new TaskKilledException 
} else { 
delegate.hasNext 
} 
} 
def next(): T = delegate.next () 














根据 5.5.3 节 的 内 容 ， 我 们 知道 整个 rdd.iterator 调 用 结束 ， 最 后 返回 Interruptiblelterator 对 象 后 ， 会 调用 SortShuffleWriter 的 write 方法 〈 见 代码 清单 6-5) ， 其 功能 如 下 : 

















1) 创建 ExternalSorter， 然 后 调用 insertAll 将 计算 结果 写 入 缓存 。 




















2) 调用 shuffleBlockManager.getDataFile 方 法 获取 当前 任务 要 输出 的 文件 路 径 ， 请 参阅 4.13 节 。 











3) 调用 shuffleBlockManager.consolidateld 创 建 blockld， 请 参阅 4.13 节 所 讲 的 ShuffleBlockld。 








4) 调用 ExternalSorter 的 writePartitionedFile 将 中 间 结 果 持 久 化 。 




















5) 调用 shuffleBlockManager.writelndexFile 方 法 创建 索引 文件 。 








6) 创建 MapStatus。 


代码 清单 6-5 ”SortShuffleWriter.write 的 实现 





override def write (records: Iterator[_ <: Product2[K, V]]): Unit = { 
if (dep.mapSideCombine) { 
require (dep.aggregator.isDefined, "Map-side combine without Aggregator specified!") 


sorter = new ExternalSorter[K, V, C] ( 
dep.aggregator, Some(dep.partitioner), dep.keyOrdering, dep.serializer) 
sorter. insertAll (records) 
} else { 
sorter = new ExternalSorter[K, V, V] ( 
None, Some(dep.partitioner), None, dep.serializer) 
sorter. insertAll (records) 
} 
val outputFile = shuffleBlockManager.getDataFile (dep.shuffleId, mapId) 
val blockId = shuffleBlockManager.consolidateId(dep.shuffleId, mapId) 
val partitionLengths = sorter.writePartitionedFile(blockId, context, outputFile) 
shuffleBlockManager.writeIndexFile(dep.shuffleId, mapId, partitionLengths) 
mapStatus = MapStatus (blockManager.shuffleServerId, partitionLengths) 





6.2 什么 是 shuffle 








shuffle 是 所 有 MapReduce 计 算 框架 所 必须 经 过 的 阶段 ，shuffle 用 于 打通 map 任 务 的 输出 与 reduce 任 务 的 输入 ，map 任 务 的 中 间 输 出 结果 按照 key 值 哈 希 后 分 配给 某 一 个 reduce 任 务 ， 这 个 过 程 如 图 6 
2 所 示 。 
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6-2 ”MapReduce 计 算 框架 的 shuffle 过 程 示 














在 具体 分 析 源 码 之 前 ,我 们 先 看 看 Spark 早 期 版 本 的 shuffle 是 怎样 的 ， 如 图 6-3 所 示 。 


bucket bucket bucket 
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图 6-3 Spa 水 早期 版 本 的 shuffle 过 程 


这 里 对 图 6-3 做 一 些 解释 : 





= 


map 任 务 会 为 每 一 个 reduce 任 务 创建 一 个 bucket。 假 设 有 M 个 map 任 务 ，R 个 reduce 任 务 ， 则 map 阶 段 一 共 会 创建 MxR 个 bucket; 


2) map 任 务 会 将 产生 的 中 间 结 果 按照 partition 写 入 不 同 的 bucket 中 ; 


Ww 


reduce 任 务 从 本 地 或 者 远 端的 map 任 务 所 在 的 BlockManager 获 取 相 应 的 bucket 作 为 输入 。 


Spark 早 期 的 shuffle 过 程 存在 以 下 问题 : 





= 


map 任 务 的 中 间 结 果 首先 存 入 内 存 ， 然 后 才 写 入 磁盘 。 这 对 于 内 存 的 开销 很 大 ， 当 一 个 节点 上 map 任 务 的 输出 结果 集 很 大 时 ， 很 容易 导致 内 存 紧张 ， 进 而 发 生 内 存 溢出 (out of 
memory, OOM) ; 


2) 每 个 map 任 务 都 会 输出 R (reduce 任 务 数量 ) 个 bucket。 假 如 M 等 于 1000，R 也 等 于 1000， 那 么 共计 生成 100 万 个 bucket， 在 bucket 本 身 不 大 ， 但 是 shuffle 很 频繁 的 情况 下 ， 磁 盘 /O 将 成 为 性 能 
瓶颈 。 


熟悉 Hadoop 的 读者 应 该 知道 ，Hadoop MapReduce 的 shuffle 过 程 存在 以 下 问题 : 





1) reduce 任 务 获取 到 map 任 务 的 中 间 输 出 后 ， 会 对 这 些 数据 在 磁盘 上 进行 merge sort, 虽然 不 怎么 占用 内 存 ， 但 是 却 产生 了 更 多 的 磁盘 1/O; 








2) 当 数 据 量 很 小 ， 但 是 map 任 务 和 reduce 任 务 数目 很 多 时 ， 会 产生 很 多 网 络 /O。 








为 了 解决 以 上 Hadoop MapReduce 和 早期 Spark 在 shuffle 过 程 中 的 性 能 问题 ， 目 前 Spark 的 shuffle 已 经 做 了 多 种 性 能 优化 ， 主 要 解决 方法 包括 : 


1) 将 map 任 务 给 每 个 partition 的 reduce 任 务 输 出 的 bucket 合 并 到 同一 个 文件 中 ， 这 解决 了 bucket 数 量 很 多 ， 但 是 本 身 数据 体积 不 大 时 ， 造 成 shuffle 很 频繁 ,磁盘 |/O 成 为 性 能 瓶颈 的 问题 ; 














2) map 任 务 逐 条 输出 计算 结果 ， 而 不 是 一 次 性 输出 到 内 存 ， 并 使 用 AppendOnlyMap 缓 存 及 其 聚合 算法 对 中 间 结 果 进 行 聚 合 ， 这 大 大 减 小 了 中 间 结 果 所 占 的 内 存 大 小 ; 





3) 对 SizeTrackingAppendOnlyMap 和 SizeTrackingPairBuffer 等 缓存 进行 溢出 判断 ， 当 超出 myMemoryThreshold 的 大 小 时 ， 将 数据 写 入 磁盘 ， 防 止 内 存 溢出 ; 


D, 

















4) reduce 任 务 对 拉 取 到 的 map 任 务 中 间 结 果 逐 条 读 取 ， 而 不 是 一 次 性 读 入 内 存 ， 并 在 内 存 中 进行 聚合 和 排序 (其 本 质 上 也 使 用 了 AppendOnlyMap 缓 存 ) ， 这 也 大 大 减 小 了 数据 占用 的 内 存 ; 
































5) reduce 任 务 将 要 拉 取 的 Block 按 照 BlockManager 地 址 划分 ， 然 后 将 同一 BlockManager 地 址 中 的 Block 累 积 为 少量 网 络 请 求 ， 减 少 网 络 /O。 


在 接 下 来 的 源码 分 析 过 程 中 ， 我 们 一 起 来 看 看 这 些 问 题 是 如 何 解决 的 。 


6.3 ”map 端 计算 结果 缓存 处 理 


在 详细 介绍 map 端 对 中 间 计 算 结果 的 细节 之 前 ， 先 理解 两 个 概念 : 


- bypassMergeThreshold: 传递 到 reduce 端 再 做 合并 (merge) 操作 的 阅 值 。 如 果 Pattition 的 数量 小 于 bypassMergeThreshold 的 值 ， 则 不 需要 在 Executor 执 行 聚合 和 排序 操作 ， 只 需要 将 各 个 pattition 直 接 写 到 


Executor 的 存储 文件 ， 最 后 在 reduce 端 再 做 串联 。 通 过 配置 spark.shuffle.sort.bypassMergeThtreshold 可 以 修改 bypassMergeThreshold 的 大 小 ， 在 分 区 数量 小 的 时 候 提升 计算 引擎 的 性 能 。bypassMergeThreshold 的 默认 
值 是 200。 


- bypassMergeSort: 标记 是 否 传递 到 reduce 端 再 做 合并 和 排序 ， 即 是 否 直 接 将 各 个 pattition 直 接 写 到 Executor 的 存储 文件 。 当 没有 定义 aggregator、ordering 函 数 ， 并 且 pattition 的 数量 小 于 等 于 
bypassMergeThreshold 时 ，bypassMergeSort 为 true。 如 果 bypassMergeSort 为 ttue，map 中 间 结 果 将 直接 输出 到 磁盘 ， 此 时 不 会 占用 太 多 内 存 ， 避 免 了 内 存 撑 爆 问题 。 





map 端 计算 结果 缓存 ( 见 代码 清单 6-6) 有 三 种 处 理 方式 : 








+ map 端 对 计算 结果 在 缓存 中 执行 聚合 和 排序 。 


“ map 不 使 用 缓存 ， 也 不 执行 聚合 和 排序 ， 直 接 调 用 spillToPartitionFiles 将 各 个 partition 直 接 写 到 自己 的 存储 文件 ( 即 bypassMergeSort 为 true 的 情况 ) ， 最 后 由 teduce 端 对 计算 结果 执行 合并 和 排序 。 
spillToPartitionFiles 的 实现 ， 请 参阅 6.4.1 节 。 


+ map 端 对 计算 结果 简单 缓存 。 





代码 清单 6-6 ”ExternalSorter.insertAll 的 实现 





def insertAll (records: Iterator[_ <: Product2[K, V]]): Unit = { 

val shouldCombine = aggregator.isDefined 

if (shouldCombine) { 
// Combine values in-memory first using our AppendOnlyMap 
val mergeValue = aggregator.get.mergeValue 
val createCombiner = aggregator.get.createCombiner 
var kv: Product2[K, V] = null 
val update = (hadValue: Boolean, oldValue: C) => { 

if (hadValue) mergeValue(oldValue, kv. 2) else createCombiner (kv. 2) 

} 


while (records.hasNext) { 
addElementsRead () 
kv = records.next () 
map.changeValue ((getPartition(kv._1), kv. 1), update) 
maybeSpillCollection(usingMap = true) T 


} 
} else if (bypassMergeSort) { 
if (records.hasNext) { 
spillToPartitionFiles (records.map { kv => 
((getPartition(kv._1), kv. 1), kv._2.asInstanceOf[C]) 
H 
} 
} else { 
while (records.hasNext) { 
addElementsRead () 
val kv = records.next () 
buffer.insert ((getPartition(kv._1), kv._1), kv._2.asInstanceOf[C]) 
maybeSpillCollection(usingMap = false) 


我 们 先 来 分 析 两 种 需要 缓存 的 方式 。 


6.3.1 _map 端 计算 结果 缓存 聚合 








一 个 任务 的 分 区 数量 通常 很 多 ， 如 果 只 是 简单 地 将 数据 存储 到 Executor 上 。 在 执行 reduce 任 务 时 会 存在 大 量 的 网 络 VO 操 作 ， 这 时 网 络 /O 将 成 为 系统 性 能 的 瓶 巴 ，reduce 任 务 读 取 map 任 务 的 计算 结 
果 变 慢 ， 导 致 其 他 想 要 分 配 到 被 这 些 map 任 务 占用 的 节点 的 任务 不 得 不 等 待 或 者 降低 本 地 化 选择 分 配 到 更 远 的 节点 上 。 对 于 更 远 节点 的 MO 本 身 会 更 慢 ， 因 此 还 会 导致 更 多 的 任务 得 不 到 分 配 或 者 无 法 高 效 
本 地 化 。 经 过 这 样 的 恶性 循环 ， 整 个 集群 将 变 得 迟钝 ， 新 的 任务 长 时 间 得 不 到 执行 或 者 执行 变 慢 。 



































通过 在 map 端 对 计算 结果 在 缓存 中 执行 聚合 和 排序 ， 能 够 节省 MO 操作 ， 进 而 提升 系统 性 能 。 这 种 情况 下 ， 必 须要 定义 聚合 器 (aggregator) 函数 ， 以 便于 对 计算 结果 按照 partitionID 和 Key 聚合 后 排 


ExternalSorter 的 insertAl| 方 法 〈 见 代码 清单 6-6) 中 ， 如 果 定 义 了 aggregator， 则 should-Combine 为 true。 此 分 支 执行 过 程 如 下 : 


1) 由 于 设置 了 聚合 函数 aggregator， 则 从 聚合 函数 获取 mergeValue (word count 例 子 中 为 Function2) 、createCombiner (word count 例 子 中 为 PairFunction) 等 函数 。 














2) 定义 update 偏 函数 ， 此 函数 用 于 操作 mergeValue 和 createCombiner。 








3) 迭代 之 前 创建 的 iterator， 每 读 取 一 条 Product2[K，V] (此 时 真正 执行 代码 清单 5-1 中 的 FlatMapFunction 和 PairFunction) ， 将 每 行 字符 串 按照 空格 切 分 ， 并 且 给 每 个 文本 设置 1， 比 如 
(#, 1) 、 (Apache, 1) 、 (Spark，1) .... 


























4) 以 (分 区 索引 ，Product2[K，V]. 1) 为 参数 调用 SizeTrackingAppendOnlyMap 的 change-Value 函 数 ( 见 代 码 清单 6-7) ， 与 update 函 数 配 合 ， 按 照 key 值 于 加 value。 























5) 调用 maybeSpillCollection 方 法 ， 来 处 理 SizeTrackingAppendOnlyMap 溢 出 ( 当 Size-TrackingAppendOnlyMap 的 大 小 超过 myMemoryThreshold 时 ， 将 集合 中 的 数据 写 入 磁盘 并 新 建 
SizeTrackingAppendOnlyMap) 。 这 样 做 是 为 了 防止 内 存 溢出 ， 解 决 了 Spark 早 期 版 本 shuffle 的 内 存 撑 爆 问题 。 


代码 清单 6-7 ”SizeTrackingAppendOnlyMap.changeValue 方 法 的 实现 





override def changeValue (key: K, updateFunc: (Boolean, V) => V): V= { 
val newValue = super.changeValue (key, updateFunc) 
super.afterUpdate () 
newValue 








SizeTrackingAppendOnlyMap 的 changeValue 方 法 的 处 理 包 括 三 步 : 








1) 调用 父 类 AppendOnlyMap 的 changeValue 函 数 ， 应 用 缓存 聚合 算法 。 











2) 调用 继承 特质 SizeTracker 的 afterUpdate 函 数 ， 增 加 对 AppendOnlyMap 大 小 的 采样 。 











3) 返回 第 1) 步 计 算 的 结果 。 


回 


1.AppendOnlyMap 的 缓存 聚合 算法 











SizeTrackingAppendOnlyMap 的 父 类 AppendOnlyMap 的 changeValue 函 数 ( 见 代码 清单 6-8) 用 于 回调 update 函 数 进行 聚合 操作 。 其 实现 可 以 说 明 ，AppendOnlyMap 支 持 null 值 的 缓存 ， 而 Java 
的 map 默 认 是 不 支持 的 。changeValue 方 法 利用 一 种 使 用 数据 缓存 的 算法 完成 聚合 。 在 介绍 此 算法 前 先 弄 清 一 些 定义 : 



































-LOAD_FACTOR: 负载 因子 ， 常 量 值 等 于 0.7。 

- initialCapacity: 初始 容量 值 64。 

‘capacity: 容量 ， 初 始 时 等 于 initialCapacity。 

' curSize: 记录 当前 已 经 放 入 data 的 key 与 聚合 值 的 数量 。 

- data: 数组 ， 初 始 大 小 为 2*capacity，data 数 组 的 实际 大 小 之 所 以 是 capacity 的 2 倍 ， 是 因为 key 和 聚合 值 各 占 一 位 。 
+ growThreshold: datas 2h 2 39 40 6) BI, #34 XA growThreshold =LOAD_FACTOR* capacity o 

“ mask: 计算 数据 存放 位 置 的 掩 码 值 ， 表 达 式 为 capacity 一 1。 

+k: 要 放 入 data 的 key。 

“ pos: 上 将 要 放 入 data 的 索引 值 。 索 引 值 等 于 K 的 哈 希 值 再 次 计算 哈 希 值 的 结果 与 mask 按 位 & 运 算 的 值 。 表 达 式 为 pos 一 rehash (k.hashCode) &mask。 
- curKey: data (2*pos) 位 置 的 当前 key。 

newValue: key 的 聚合 值 。 


在 掌握 以 上 概念 的 前 提 下 ， 给 出 以 下 算法 描述 : 


条 件 1: 如 果 curKey 等 于 null， 那 么 newValue 等 于 





1; 



































条 件 2: 如 果 curKey 不 等 于 null 并 且 不 等 于 k， 那 么 从 pos 当 前 位 置 向 后 找 ， 直 到 此 位 置 的 索引 值 与 mask 按 位 & 运 算 后 的 新 位 置 的 key 符 合 条 件 1 或 者 条 件 3; 














条 件 3: 如 果 curKey 不 等 于 null 并 且 等 于 k， 那 么 newValue 等 于 data (2*pos+ 1) 与 k 对 应 的 值 按照 mergeValue 定 义 的 函数 运算 (在 word count 例 子 中 ，mergeValue 是 代码 清单 5-1 中 的 Function2 
函数 ) 。 





代码 清单 6-8 AppendOnlyMap.changeValue 方 法 的 实现 





def changeValue (key: K, updateFunc: (Boolean, V) => V): V = { 
assert (!destroyed, destructionMessage) 
val k = key.asInstanceOf [AnyRef] 
if (k.eq(null)) { 
if (!haveNullValue) { 
incrementSize () 
} 
nullValue = updateFunc (haveNullValue, nullValue) 
haveNullValue = true 
return nullValue 
} 
var pos = rehash(k.hashCode) & mask 
var i=l 
while (true) { 
val curKey = data(2 * pos) 
if (k.eq(curkey) || k.equals(curKey)) { 
val newValue = updateFunc(true, data(2 * pos + 1) .asInstanceOf[V]) 
data(2 * pos + 1) = newValue.asInstanceOf [AnyRef] 
return newValue 
} else if (curKey.eq(null)) { 
val newValue = updateFunc (false, null.asInstanceOf [V] ) 
data(2 * pos) =k 
data(2 * pos + 1) = newValue.asInstanceOf [AnyRef] 
incrementSize () 
return newValue 
} else { 
val delta =i 
pos = (pos + delta) & mask 
it=1 
} 


} 
null.asInstanceOf[V] // Never reached but needed to keep compiler happy 








2.AppendOnlyMap 的 容量 增长 








incrementSize 方 法 ( 见 代码 清单 6-9) 用 于 扩充 AppendOnlyMap 的 容量 。 当 curSize > growThreshold 时 ， 调 用 growTable 方 法 将 capacity 容 量 扩大 一 倍 ， 即 newCapacity = capacity*2。 












































growTable 方 法 ( 见 代 码 清单 6-10) 先 创建 newCapacity 的 两 倍 大 小 的 新 数组 ， 将 老 数 组 中 的 元 素 复制 到 新 数组 中 ， 新 数组 索引 位 置 采 用 新 的 mask 重 新 使 用 rehash (k.hashCode) &mask 计 算 。 




















代码 清单 6-9 AppendOnlyMap.incrementSize 方 法 代码 





private def incrementSize() { 
curSize += 1 
if (curSize > growThreshold) { 
growTable () 
} 





代码 清单 6-10 AppendOnlyMap.growTable 方 法 代码 





protected def growTable() { 
val newCapacity = capacity * 2 
if (newCapacity >= (1 << 30)) { 
throw new Exception("Can't make capacity bigger 
} 


val newData = new Array[AnyRef] (2 * newCapacity) 
val newMask = newCapacity - 1 
var oldPos = 0 


while (oldPos < capacity) { 
if (!data(2 * oldPos) .eq(null)) 
val key = data(2 * oldPos) 
val value = data(2 * oldPos + 1) 
var newPos = rehash(key.hashCode) & newMask 
var i=1 
var keepGoing = true 
while (keepGoing) { 
val curKey = newData(2 * newPos) 
if (curKey.eq(null)) { 


{ 


newData(2 * newPos) = key 
newData(2 * newPos + 1) = value 
keepGoing = false 

} else { 
val delta =i 
newPos = (newPos + delta) & newMask 


i +=1 


} 


} 
oldPos += 1 
} 
data = newData 
capacity = newCapacity 
mask = newMask 
growThreshold = (LOAD_FACTOR * newCapacity) .toInt 


than 2*29 elements") 





经 过 以 上 算法 的 运算 ，word count 例 子 的 数据 集合 中 间 计 算 结 


3.AppendOnlyMap 大 小 采样 


代码 清单 6-10 列 出 了 AppendOnlyMap 的 容量 增长 实现 方法 growTable,， Jl 
这 应 该 没有 什么 问题 。Spark 为 大 数据 平 


我 们 可 以 在 AppendOnlyMap 的 每 次 更 新 操作 之 后 计算 它 的 大 小 ， 


果 会 变 为 ( (0，site，) ，1) 、 

















操作 就 计算 一 次 大 小 会 严重 影响 Spark 的 性 能 ， 因 此 Spark 实 际 采 




















SizeTrackingAppendOnlyMap 继 承 了 特质 SizeTracker， 
(nextSampleNum) ， 其 处 理 步骤 如 下 : 











了 采样 并 利 





( (0, which) , 


是 不 是 意味 着 AppendOnlyMap 的 容量 可 以 无 限制 增长 呢 ? 当然 不 是 ， 我 们 需要 对 AppendOnlyMap 大 小 进行 


人 EE 


2). ( (0, Hadoop) , 4) 的 样子 ， 证 明确 实 发 生 了 聚合 。 


限制 。 很 明显 








Arma 


这 些 采 样 对 AppendOnlyMap 未 来 的 大 小 进行 


要 提供 实时 计算 能 力 ， 无 论 是 数据 量 还 是 对 CPU 的 开销 都 很 大 ， 每 当 发 生 update 或 者 insert 
估算 或 推测 的 方式 。 


afterUpdate ( 见 代码 清单 6-11) 用 于 每 次 更 新 AppendOnlyMap 的 缓存 后 进行 采样 ， 采 样 前 提 是 已 经 到 达 设 定 的 采样 间隔 


1) 将 AppendOnlyMap 所 占 的 内 存 进行 估算 并 且 与 当前 编号 (numUpdates) 一 起 作为 样本 数据 更 新 到 samples = new mutable.Queue[Sample] 中 。 


2) 如 果 当 前 采样 数量 大 于 2， 则 使 samples 执 行 一 次 出 队 操作 ， 


3) 计算 每 次 更 新 增加 的 大 小 ， 公 式 如 下 : 


bytesPerUpdate 


如 果 样 本 数 小 于 2， 那 么 bytesPerUpdate = 0, 
4) 计算 下 次 采样 的 间隔 nextSampleNum。 


代码 清单 6-11 SizeTracker.afterUpdate 的 实现 


保证 样本 总 数 等 于 2。 


本 ， 
本 次 


St Se 
Hå a, 


ont 大 小 一 上 次 采样 大 小 
编号 -上 次 采样 编号 





protected def afterUpdate(): Unit = { 
numUpdates += 1 
if (nextSampleNum == numUpdates) 


takeSample () 


{ 
} 


} 
private def takeSample(): Unit = { 
samples .enqueue (Sample (SizeEstimator.estimate (this) 
// Only use the last two samples to extrapolate 
if (samples.size > 2) { 
samples .dequeue () 


} 
val bytesDelta = samples.toList.reverse match { 
case latest :: previous :: tail => 


, numUpdates) ) 


(latest.size - previous.size) .toDouble / (latest.numUpdates - previous.numUpdates) 


// If fewer than 2 samples, assume no change 
case _ => 0 


} 
bytesPerUpdate = math.max (0, bytesDelta) 


nextSampleNum = math.ceil (numUpdates * SAMPLE GROWTH RATE) .toLong 




















AppendOnlyMap 的 大 小 采样 数据 








AppendOnlyMap 也 对 SizeTrackingPairBuffer 在 内 存 中 的 容量 进行 限制 以 防 内 存 溢 出 时 发 挥 其 作 | 


代码 清单 6-12 ”SizeTracker.estimateSize 方 法 代码 




















于 推测 AppendOnlyMap 未 来 的 大 小 ， 推 测 的 实现 见 代码 清单 6-12。 由 于 SizeTrackingPairBuffer 也 继承 了 SizeTracker， 所 以 estimateSize 方 法 不 但 对 
。 有 关 SizeTrackingPairBuffer 的 介绍 请 看 6.3.2 节 。 





def estimateSize(): Long = { 
assert (samples .nonEmpty) 
val extrapolatedDelta = bytesPerUpdate * 
(samples. last.size + extrapolatedDelta) .toLong 


(numUpdates - samples.last.numUpdates) 





map 端 计算 结果 简单 缓存 














ExternalSorter 的 insertAl| 方 法 中 ， 如 果 没有 定义 aggregator， 那 么 shouldCombine 为 false， 见 代码 清单 6-6。 这 时 会 调用 SizeTrackingPairBuffer 的 insert 方 法 〈 见 代码 清单 6-13) ， 从 其 实现 可 以 知 


道 ， 它 只 不 过 是 把 计算 结果 简单 地 缓存 到 数组 中 了 。 





代码 清单 6-13 ”SizeTrackingPairBuffer.insert 代 码 实 现 


def insert (key: K, value: V): Unit = { 
if (curSize == capacity) { 
growArray () 
} 
data(2 * curSize) = key.asInstanceOf [AnyRef] 
data(2 * curSize + 1) = value.asInstanceOf [AnyRef] 
curSize += 1 
afterUpdate () 


下 面 我 们 来 介绍 SizeTrackingPairBuffer 的 容量 增长 。 











SizeTrackingPairBuffer 的 容量 增长 是 通过 growArray 方 法 实现 的 。growArray 实 现 增长 data 数 组 容量 的 方式 非常 简单 ， 只 是 新 建 2 倍 大 小 的 新 数组 ， 然 后 简单 复制 而 已 ， 见 代码 清单 6-14。 





新 建 的 数组 大 小 有 可 能 超过 Int 类 型 的 最 大 值 ， 所 以 会 抛 出 异常 。 


代码 清单 6-14 SizeTrackingPairBuffer.growArray 代 码 实现 


private def growArray(): Unit = { 
if (capacity == (1 << 29)) { 
throw new Exception("Can't grow buffer beyond 2*29 elements") 
} 
val newCapacity = capacity * 2 
val newArray = new Array[AnyRef] (2 * newCapacity) 
System.arraycopy(data, 0, newArray, 0, 2 * capacity) 
data = newArray 
capacity = newCapacity 
resetSamples () 









































Spark 使 用 SizeTrackingPairBuffer 的 过 程 中 ， 也 会 调用 maybespillCollection 方 法 ， 来 处 理 SizeTrackingPairBuffer 溢 出 ( 当 SizeTrackingPairBuffer 的 大 小 超过 myMemoryThreshold 时 ， 将 集合 中 
的 数据 写 入 磁盘 并 新 建 SizeTrackingPairBuffer) 。 这 样 做 是 为 了 防止 内 存 溢出 ， 解 决 了 Spark 早 期 版 本 shuffle 的 内 存 撑 爆 问题 。 





6.3.3 ”容量 限制 


既然 AppendOnlyMap 和 SizeTrackingPairBuffer 的 容量 都 可 以 增长 ， 那 么 数据 量 不 大 的 时 候 不 会 有 问题 。 但 由 于 大 数据 处 理 的 数据 量 往往 都 很 大 ， 全 部 都 放 入 内 存 会 将 系统 的 内 存 撑 爆 。Spark 为 了 防 


止 这 个 问题 的 发 生 ， 提 供 了 函数 maybeSpillCollection， 见 代码 清单 6-15。 





代码 清单 6-15 ” ExternalSorter.maybeSpillCollection 代 码 实 现 








private def maybeSpillCollection(usingMap: Boolean): Unit = { 
if (!spillingEnabled) { 
return 
i 
if (usingMap) { 
if (maybeSpill(map, map.estimateSize())) { 
map = new SizeTrackingAppendOnlyMap[ (Int, K), C] 


} else { 
if (maybeSpill (buffer, buffer.estimateSize())) { 
buffer = new SizeTrackingPairBuffer[(Int, K), C] 
} 


1. 集 合 溢出 判定 




















maybespillCollection 判 定 集合 是 否 溢出 主要 由 maybeSpil 函 数 来 决定 ， 见 代码 清单 6-16。maybespill 函 数 的 处 理 步 骤 如 下 : 








1) 为 当前 线程 尝试 获取 amountToRequest 大 小 的 内 存 (amountToRequest = 2*current-Memory - myMemoryThreshold) 。shuffleMemoryManager 的 tryToAcquire 方 法 已 在 4.14 节 详细 介绍 


2) 如 果 获 得 的 内 存 依然 不 足 (myMemoryThreshold < = currentMemory) ， 则 调 
myMemoryThreshold, 


























spill， 执 行 溢出 操作 。 内 存 不 足 可 能 是 申请 到 的 内 存 为 0 或 者 已 经 申请 得 到 的 内 存 大 小 超过 了 











3) 溢出 后 续 处 理 ， 如 elementsRead 归 零 ， 已 溢出 内 存 字 节 数 (memoryBytesSpilled) 增加 线程 当前 内 存 大 小 (currentMemory) ,释放 当前 线程 占用 的 内 存 。 


代码 清单 6-16 ”Spillable.maybeSpill 的 实现 


protected def maybeSpill (collection: C, currentMemory: Long): Boolean = { 
if (elementsRead > trackMemoryThreshold && elementsRead % 32 == 0 && 
currentMemory >= myMemoryThreshold) { 
val amountToRequest = 2 * currentMemory - myMemoryThreshold 
val granted = shuffleMemoryManager.tryToAcquire (amountToRequest) 
myMemoryThreshold += granted 
if (myMemoryThreshold <= currentMemory) { 
_spillcount += 1 
logSpillage (currentMemory) 
spill (collection) 
elementsRead = 0 
“memoryBytesSpilled += currentMemory 
releaseMemoryForThisThread () 
return true 


false 














2. 溢 出 








spill 方 法 的 实现 ， 见 代码 清单 6-17。 如 果 bypassMergeSort 为 真 ， 则 调用 spillToPartition-Files 将 内 存 中 的 数 











spillToMergeableFile, 






































居 溢 出 到 分 区 文件 ， 具 体 细节 请 参阅 6.4.1 节 。 如 果 bypassMergeSort 不 为 真 ， 则 调 上 

















代码 清单 6-17 ”ExternalSorter.spil 方 法 的 实现 





override protected[this] def spill(collection: SizeTrackingPairCollection[ (Int, K), C]): Unit = { 
if (bypassMergeSort) { 
spillToPartitionFiles (collection) 
} else { 
spillToMergeableFile (collection) 
} 





spillToMergeableFile 方 法 ( 见 代码 清单 6-18) 的 处 理 步骤 如 下 : 











1) 调用 createTempShuffleBlock 创 建 临 时 文件 ，createTempShuffleBlock 的 实现 已 在 4.4.3 节 讲述 过 。 











2) 新 建 ShuffleWriteMetrics 用 于 测量 。 

















3) 调用 getDiskWriter 方 法 创建 DiskBlockObjectWriter， 具 体内 容 参 阅 4.8.7 节 。 




















4) 调用 destructiveSortedlterator 方 法 对 集合 元 素 排序 ， 在 6.4.2 节 将 会 详细 介绍 。 

5) 将 集合 内 容 写 入 临时 文件 。 写 入 的 时 机 有 两 个 : 

“ 集合 遍历 完 的 时 候 ， 执 行 flush。 

' 遍历 过 程 中 ， 每 当 写 入 DiskBlockObjectWriter 的 元 素 个 数 (objectsWritten) 达到 批量 序列 化 尺寸 (serializerBatchSize) 时 ， 也 会 执行 flush， 然 后 重新 创建 DiskBlock-ObjectWriter。 


代码 清单 6-18 ”ExternalSorter.spillToMergeableFile 方 法 的 实现 


private def spillToMergeableFile (collection: SizeTrackingPairCollection[(Int, K), C]): Unit = { 
val (blockId, file) = diskBlockManager.createTempShuffleBlock () 
curWriteMetrics = new ShuffleWriteMetrics () 
var writer = blockManager.getDiskWriter (blockId, file, ser, fileBufferSize, curWriteMetrics) 
var objectsWritten = 0 // Objects written since the last flush 
val batchSizes = new ArrayBuffer [Long] 
val elementsPerPartition = new Array [Long] (numPartitions) 
def flush() = { 
val w = writer 
writer = null 
w.commitAndClose () 
_diskBytesSpilled += curWriteMetrics.shuffleBytesWritten 
batchSizes. append (curWriteMetrics.shuffleBytesWritten) 
objectsWritten = 0 


var success = false 
try { 
val it = collection.destructiveSortedIterator (partitionKeyComparator) 
while (it.hasNext) { 
val elem = it.next () 
val partitionId = elem. 1. 1 
val key = elem. 1. 2 
val value = elem. 2 
writer.write (key) 
writer.write (value) 
elementsPerPartition(partitionId) += 1 
objectsWritten += 1 
if (objectsWritten == serializerBatchSize) { 
flush () 
curWriteMetrics = new ShuffleWriteMetrics () 
writer = blockManager.getDiskWriter (blockId, file, ser, fileBufferSize, curWriteMetrics) 
} 
} 
if (objectsWritten > 0) { 
flush () 
} else if (writer != null) { 
val w = writer 
writer = null 
w.revertPartialWritesAndClose () 
success = true 
} finally { 
if (!success) { 
if (writer != null) { 
writer. revertPartialWritesAndClose () 
} 
if (file.exists()) { 
file.delete () 
} 
} 
spills.append (SpilledFile (file, blockId, batchSizes.toArray, elementsPerPartition)) 





64 ”map 端 计算 结果 持久 化 











writePartitionedFile ( 见 代码 清单 6-19) 用 于 持久 化 计算 结果 。 此 方法 有 两 个 分 支 : 











“ 溢出 到 分 区 文件 后 合并 : 将 内 存 中 缓存 的 多 个 partition 的 计算 结果 分 别 写 入 多 个 临时 Block 文 件 ， 然 后 将 这 些 Block 文 件 的 内 容 全 部 写 入 正式 的 Block 输 出 文件 中 。 





“ 内 存 中 排序 合并 : 将 缓存 的 中 间 计 算 结 果 按 照 partition 分 组 后 写 入 Block 输 出 文件 。 此 种 方式 还 需要 更 新 此 任务 与 内 存 、 磁 盘 有 关 的 测量 数据 。 


无 论 哪 种 排序 方式 ， 每 个 partition 都 会 最 终 写 入 一 个 正式 的 Block 文 件 ， 所 以 每 个 map 任 务实 际 上 最 后 只 会 生成 一 个 磁盘 文件 ， 最 终 解决 了 Spark 早 期 版 本 中 一 个 map 任 务 输 出 的 bucket 文 件 过 多 和 磁 
盘 I/O 成 为 性 能 瓶颈 的 问题 。 此 外 ， 无 论 哪 种 排序 方式 ， 每 输出 完 一 个 partition 的 中 间 结 果 时 ， 都 会 记录 当前 partition 的 长 度 ， 此 长 度 将 记录 在 索引 文件 中 ， 以 便 下 游 任务 的 读 取 。 


writePartitionedFile 中 有 关 DiskBlockObjectWriter 的 实现 ， 请 参阅 4.12 节 。 


代码 清单 6-19 ”ExternalSorter.writePartitionedFile 的 实现 





def writePartitionedFile (blockId: BlockId, context: TaskContext, 
outputFile: File): Array[Long] = { 
val lengths = new Array[Long] (numPartitions) 
if (bypassMergeSort && partitionWriters != null) { 
spillToPartitionFiles(if (aggregator.isDefined) map else buffer) 
partitionWriters. foreach (_.commitAndClose ()) 
var out: FileOutputStream = null 
var in: FileInputStream = null 
try { 
out = new FileOutputStream(outputFile, true) 
for (i <- 0 until numPartitions) { 


in = new FileInputStream(partitionWriters (i) .fileSegment () . file) 


val size = org.apache.spark.util.Utils.copyStream(in, out, false, transferToEnabled) 
in.close() 


in = null 
lengths (i) = size 


} 
} finally { 
if (out != null) { 
out.close() 
} 
if (in != null) { 
in.close() 


} 


} 
} else { 
for ((id, elements) <- this.partitionedIterator) { 
if (elements.hasNext) { 
val writer = blockManager.getDiskWriter ( 
blockId, outputFile, ser, fileBufferSize, context.taskMetrics.shuffle-WriteMetrics.get) 
for (elem <- elements) { 
writer.write (elem) 
} 
writer.commitAndClose () 
val segment = writer.fileSegment () 
lengths (id) = segment.length 


f 

} 

context.taskMetrics.memoryBytesSpilled += memoryBytesSpilled 
context.taskMetrics.diskBytesSpilled += diskBytesSpilled 


context .taskMetrics.shuffleWriteMetrics.filter(_ => bypassMergeSort).foreach { m => 
if (curWriteMetrics != null) { 


m.shuffleBytesWritten += curWriteMetrics.shuffleBytesWritten 
m.shuffleWriteTime += curWriteMetrics.shuffleWriteTime 


lengths 





6.4.1 溢出 分 区 文件 





























BlockObjectWriter 将 计算 结果 分 别 写 入 这 些 临 时 Block 文 件 中 。createTempShuffleBlock 方 法 创建 临时 的 Block， 
阅 4.8.7 节 。 





spillToPartitionFiles ( 见 代码 清单 6-20) 用 于 将 内 存 中 的 集合 数据 按照 每 个 partition 创 建 一 个 临时 Block 文 件 ， 为 每 个 临时 Block 文 件 生成 一 个 DiskBlockObjectWriter， 并 且 用 Disk- 


体内 容 请 参阅 4.4.3 节 。getDiskWriter 方 法 创建 DiskBlockObjectWriter， 具 体内 容 请 参 



































代码 清单 6-20 ”ExternalSorter 的 溢出 分 区 文件 实现 





private def spillToPartitionFiles (collection: SizeTrackingPairCollection[ (Int, K), C]): Unit = { 
spillToPartitionFiles (collection.iterator) 
} 


private def spillToPartitionFiles (iterator: Iterator[((Int, K), C)]): Unit = { 
assert (bypassMergeSort) 
if (partitionWriters == null) { 
curWriteMetrics = new ShuffleWriteMetrics () 
partitionWriters = Array.fill(numPartitions) { 
val (blockId, file) = diskBlockManager.createTempShuffleBlock () 


blockManager.getDiskWriter(blockId, file, ser, fileBufferSize, curWrite-Metrics) .open () 
} 


while (iterator.hasNext) { 
val elem = iterator.next () 
val partitionId = elem. 1. 1 
val key = elem. 1. 2 
val value = elem. 2 
partitionWriters (partitionId) .write((key, value) ) 








代码 清单 6-19 的 持久 化 分 支 ( 即 满足 bypassMergeSort&&partitionWriters! = null 条 件 的 代码 分 支 ) 说 明 spillToPartitionFiles 方 法 为 每 个 partition 生 成 的 临时 文件 最 后 会 逐个 读 取 并 统一 写 入 正式 的 
Block 文 件 ， 如 图 6-4 所 示 。spillToPartitionFiles 方 法 在 bypass-MergeSort 为 true，SizeTrackingAppend-OnlyMap 或 者 SizeTrackingPairBuffer 的 大 小 超过 myMemoryThreshold 时 被 调用 ， 以 防止 内 存 


撑 爆 问题 。 此 外 ， 由 于 每 个 partition 生 成 的 临时 文件 最 后 会 逐个 读 取 并 统一 写 入 正式 的 Block 文 件 ， 所 以 每 个 map 任 务实 际 上 最 后 只 会 生成 一 个 磁盘 文件 (相当 于 多 个 bucket 被 合并 到 一 个 文件 中 ) ， 最 终 
解决 了 产生 bucket 文 件 过 多 和 磁盘 I/O 成 为 性 能 瓶颈 的 问题 。 
































TempBlock 2 
(site, 1) 


(which, 1) 
(Hadoop, 1) 
"i (Hadoop,1) 


(hello,1) 





(hello,1) 


TempBlock 1. 
ilies (world, 1) 


(world, 1) 


(hello, 1) 
(Hadoop, 1) 





TempBlock 0 Cert) 


(Hadoop, 1) 





图 6-4 溢出 到 分 区 文件 后 合并 


6.4.2 排 序 与 分 区 分 组 


partitionediterator ( 见 代码 清单 6-21) 通过 对 集合 按照 指定 的 比较 器 进行 排序 ， 并 且 按照 partition id 分 组 ， 生 成 迭代 器 。 


代码 清单 6-21 ExternalSorter.partitionedlterator 的 实现 





def partitionedIterator: Iterator[(Int, Iterator[Product2[K, C]])] = { 
val usingMap = aggregator. isDefined 
val collection: SizeTrackingPairCollection[ (Int, K), C] = if (usingMap) map else buffer 
if (spills.isEmpty && partitionWriters == null) { 
if (!ordering.isDefined) { 
groupByPartition (collection.destructiveSortedIterator (partitionComparator) ) 
} else { 
groupByPartition (collection.destructiveSortedIterator (partitionKeyComparator) ) 


} else if (bypassMergeSort) { 
val collIter = groupByPartition (collection.destructiveSortedIterator (partitionComparator) ) 
colliIter.map { case (partitionId, values) => 
(partitionId, values ++ readPartitionFile (partitionWriters (partitionId) ) ) 


} else { 
merge (spills, collection.destructiveSortedIterator (partitionKeyComparator) ) 
} 





1. 比 较 器 
代码 清单 6-22 列 出 了 目前 的 三 种 比较 器 : 
“ keyComparator: 按照 指定 的 key 进 行 排序 ; 
+ partitionComparator: 按照 partition id 进行 比较 ; 
- partitionKeyComparator: 先 按照 pattition id 进 行 比较 ， 再 按照 指定 的 key 进 行 第 二 级 排序 。 当 没有 指定 排序 字段 并 且 没 有 指定 聚合 函数 时 会 退化 为 partitionComparator。 


代码 清单 6-22 ”ExternalSorter 中 提供 的 几 种 比较 器 





private val keyComparator: Comparator[K] = ordering.getOrElse (new Comparator[K] { 
override def compare(a: K, b: K): Int = { 
val hl = if (a == null) 0 else a.hashCode() 


val h2 = if (b == null) 0 else b.hashCode() 
if (hl < h2) -1 else if (hl == h2) 0 else 1 
} 
H 
private val partitionComparator: Comparator [ (Int, K)] = new Comparator[(Int, K)] { 
override def compare (a: (Int, K), b: (Int, K)): Int = { 
| 


} 
} 
private val partitionKeyComparator: Comparator[(Int, K)] = { 
if (ordering.isDefined || aggregator.isDefined) { 
new Comparator[(Int, K)] { 


override def compare(a: (Int, K), b: (Int, K)): Int = { 
val partitionDiff = a. 1-b.1 
if (partitionDiff != 0) { a 
partitionDiff 
} else { 
keyComparator.compare (a._2, b._2) 


} 


} 
} else { 
partitionComparator 


} 

















由 于 partitionedlterator 方 法 实际 是 通过 调用 destructiveSortedlterator 和 groupByPartition 来 实现 ， 下 面 详细 分 析 这 两 个 方法 。 


2. 排 序 














destructiveSortedlterator 方 法 ( 见 代码 清单 6-23) 的 处 理 步骤 如 下 : 


1) 将 data 数 组 向 左 整理 排列 。 


2) 利用 Sorter、KVArraySortDataFormat 以 及 指定 的 比较 器 进行 排序 。 这 : 

















中 用 到 了 TimSort， 也 就 是 优化 版 的 归并 排序 。 

















3) 生成 新 的 迭代 器 。 


代码 清单 6-23 AppendOnlyMap.destructiveSortedlterator 的 排序 实现 





def destructiveSortedIterator (keyComparator: Comparator[K]): Iterator[(K, V)] = { 


destroyed = true 
var keyIndex, newIndex = 0 
while (keyIndex < capacity) { 
if (data(2 * keyIndex) != null) { 
data(2 * newIndex) = data(2 * keyIndex) 
data(2 * newIndex + 1) = data(2 * keyIndex + 1) 
newIndex += 1 
} 
keyIndex += 1 
} 
assert (curSize == newIndex + (if (haveNullValue) 1 else 0)) 
new Sorter (new KVArraySortDataFormat[K, AnyRef]) .sort (data, 0, newIndex, keyComparator) 
new Iterator[(K, V)] { 
var i=0 
var nullValueReady = haveNullValue 
def hasNext: Boolean = (i < newIndex || nullValueReady) 
def next(): (K, V) = { 
if (nullValueReady) { 
nullValueReady = false 
(null.asInstanceOf[K], nullValue) 
} else { 
val item = (data(2 * i).asInstanceOf[K], data(2 * i + 1).asInstanceOf[V]) 
i +=1 
item 





3. 分 区 分 组 











groupByPartition ( 见 代码 清单 6-24) 主要 用 于 对 destructiveSortedlterator 生 成 的 迭代 器 按照 partition id 分 组 。 











代码 清单 6-24 ”ExternalSorter.groupByPartition 的 分 区 分 组 代码 








private def groupByPartition(data: Iterator[((Int, K), C)]) 


: Iterator[ (Int, Iterator[Product2[K, C]])] = 


val buffered = data.buffered 
(0 until numPartitions) .iterator.map(p => (p, new IteratorForPartition(p, buffered) ) ) 


lteratorForPartition 如 何 区 分 partition 呢 ? 见 代码 清单 6-25。 可 见 其 hasNext 会 判断 数据 的 partition1d。 


代码 清单 6-25 ”ExternalSorter.lteratorForPartition 的 实现 





private[this] class IteratorForPartition(partitionId: Int, data: Buffered-Iterator[((Int, K), C)]) 


{ 


6.4.3 


根据 代码 清单 6-19 我 们 知道 ， 无 论 采 用 哪 种 缓存 处 理 ， 在 持久 化 的 时 候 都 会 被 写 入 同一 文件 ， 那 么 reduce 任 务 如 何 从 此 文件 中 按照 分 区 读 取 数 据 呢 ? 还 记得 在 代码 清单 6-5 中 调 
IndexShuffleBlockManager 的 writelndexFile 方 法 生成 的 分 区 索引 文件 吗 ?” 此 文件 使 用 偏 移 量 来 区 分 各 个 分 区 的 计算 结果 ， 偏 移 量 来 自 


细 介 绍 请 | 


extends Iterator[Product2[K, C]] 


override def hasNext: Boolean = data.hasNext && data.head. 1. 1 == partitionId 
override def next(): Product2[K, C] = { = 
if ('hasNext) { 
throw new NoSuchElementException 
} 
val elem = data.next () 
(elem. 1. 2, elem. 2) 





分 区 索引 文件 
















































































于 合并 排序 过 程 中 记录 的 各 个 partition 的 长 度 。writelndexFile 的 详 

















阅读 4.13 节 。 





这 里 用 图 6- 





al 














展示 内 存 中 排序 、 分 组 后 生成 分 区 索引 文件 的 全 过 程 。 
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图 6-5 排序、 分 组 、 生 成 分 区 索引 文件 的 全 过 程 








6.5 ”reduce 端 读 取 中 间 计 算 结 果 


先 简单 说 下 ， 当 map 任 务 相关 Stage 的 任务 都 执行 完毕 后 ， 会 唤起 下 游 Stage 的 提交 及 任务 的 执行 。 上 游 任务 的 执行 结果 必然 是 下 游 任务 的 输入 ， 我 们 就 下 游 任务 如 何 读 取 上 游 任务 计算 结果 来 展开 。 





根据 5.6.3 节 中 “ResultTask 任 务 的 结果 处 理 ” 部 分 的 内 容 ， 我 们 知道 ResultTask 的 计算 也 是 由 RDD 的 iterator 方 法 驱动 ， 这 在 介绍 ShuffleMapTask 的 时 候 已 经 介绍 过 。 其 计算 过 程 最 终 会 落实 到 
ShuffledRDD 的 compute 方 法 。ShuffledRDD 的 compute 方 法 ( 见 代码 清单 6-26) 首先 调用 SortShuffleManager 的 getReader 方 法 创建 HashShuffleReader， 然 后 执行 Hash-ShuffleReader 的 read 方 法 
读 取 依赖 任务 的 中 间 计 算 结 果 。 





代码 清单 6-26 ShuffledRDD.computett#3 





override def compute(split: Partition, context: TaskContext): Iterator[(K, C)] = { 
val dep = dependencies.head.asInstanceOf [ShuffleDependency[K, V, C]] 
SparkEnv.get.shuffleManager.getReader (dep.shuffleHandle, split.index, split.index + 1, context) 
. read () 
-asInstanceOf [Iterator [ (K, C)]] 





SortShuffleManager 的 getReader 方 法 的 实现 如 下 。 





override def getReader[K, C] ( 
handle: ShuffleHandle, 
startPartition: Int, 
endPartition: Int, 
context: TaskContext): ShuffleReader[K, C] = { 
new HashShuffleReader ( 
handle.asInstanceOf [BaseShuffleHandle[K, _, C]], startPartition, endPartition, context) 








HashShuffleReader 用 来 读 取 上 游 任务 计算 结果 ， 它 的 read 方 法 ( 见 代码 清单 6-27) 的 处 理 步骤 如 下 : 
1) 从 远 端 节点 或 者 本 地 读 取 中 间 计 算 结果 。 


2) 对 Interruptiblelterator 执 行 聚合 。 





3) 对 Interruptiblelterator 排 序 ， 由 于 使 用 ExternalSorter 的 insertAll， 不 再 歼 述 。 








代码 清单 6-27 ”HashShuffleReader 的 read 方 法 





override def read(): Iterator[Product2[K, C]] = { 
val ser = Serializer.getSerializer (dep.serializer) 
val iter = BlockStoreShuffleFetcher.fetch (handle.shuffleId, startPartition, context, ser) 
val aggregatedIter: Iterator[Product2[K, C]] = if (dep.aggregator.isDefined) { 
if (dep.mapSideCombine) { 
new InterruptibleIterator (context, dep.aggregator.get.combineCombiners-ByKey (iter, context) ) 
} else { 
new InterruptibleIterator (context, dep.aggregator.get.combineValues-ByKey (iter, context) ) 


} else { 
require (!dep.mapSideCombine, "Map-side combine without Aggregator specified!") 
iter.asInstanceOf [Iterator [Product2[K, C]]].map(pair => (pair. 1, pair. 2)) 


} 
dep.keyOrdering match { 
case Some (keyOrd: Ordering[K]) => 
val sorter = new ExternalSorter[K, C, C] (ordering = Some(keyOrd), serializer = Some (ser) ) 
sorter. insertAll (aggregatedIter) 
context.taskMetrics.memoryBytesSpilled += sorter.memoryBytesSpilled 
context.taskMetrics.diskBytesSpilled += sorter.diskBytesSpilled 
sorter.iterator 
case None => 
aggregatedIter 





从 远 端 节点 或 者 本 地 读 取 中 间 计 算 结果 通过 调用 BlockStoreShuffleFetcher 的 fetch 方 法 ( 见 代码 清单 6-28) 实现 ， 它 的 处 理 步骤 如 下 : 


1) 获取 map 任 务 执行 的 状态 信息 。 

2) 按照 中 间 结 果 所 在 节点 划分 各 个 Block。 

3) 创建 ShuffleBlockFetcherlterator ( 即 从 远 端 节点 或 者 本 地 读 取 中 间 计 算 结果 ) 。 
4) 将 ShuffleBlockFetcherlterator 封 装 为 Interruptiblelterator。 


代码 清单 6-28 ”BlockStoreShuffleFetcher 的 fetch 方 法 


def fetch[T] (shuffleId: Int, reduceId: Int, context: TaskContext, 
serializer: Serializer) : Iterator[T] = 
{ 
logDebug ("Fetching outputs for shuffle bd, reduce %d".format(shuffleId, reduceId) ) 
val blockManager = SparkEnv.get.blockManager 
val startTime = System.currentTimeMillis 
val statuses = SparkEnv.get.mapOutputTracker.getServerStatuses (shuffleId, reducelId) 
logDebug ("Fetching map output location for shuffle %d, reduce %d took %d ms". format ( 
shuffleId, reduceId, System.currentTimeMillis - startTime) ) 
val splitsByAddress = new HashMap[BlockManagerId, ArrayBuffer[ (Int, Long) ]] 
for (((address, size), index) <- statuses.zipWithIndex) { 
splitsByAddress.getOrElseUpdate (address, ArrayBuffer()) += ((index, size)) 


} 
val blocksByAddress: Seq[ (BlockManagerId, Seq[(BlockId, Long)])] = splitsByAddress.toSeq.map { 
case (address, splits) => 
(address, splits.map(s => (ShuffleBlockId(shuffleId, s. 1, reduceId), s. 2))) 


def unpackBlock(blockPair: (BlockId, Try[Iterator[Any]])) : Iterator[T] = { 
val blockId = blockPair. 1 
val blockOption = blockPair. 2 
blockOption match { ~ 
case Success (block) => { 
block.asInstanceOf [Iterator [T] ] 
} 
case Failure(e) => { 
// 异 常 省 略 


val blockFetcherItr = new ShuffleBlockFetcherIterator (context, 
SparkEnv.get.blockManager.shuffleClient, blockManager, blocksByAddress, 
serializer, 
SparkEnv.get.conf.getLong("spark.reducer.maxMbInFlight", 48) * 1024 * 1024) 
val itr = blockFetcherItr.flatMap (unpackBlock) 
val completionIter = CompletionIterator[T, Iterator[T]] (itr, { 
context .taskMetrics.updateShuffleReadMetrics () 


new InterruptibleIterator[T] (context, completionIter) 


6.5.1 获取 map 任 务 状态 














Spark 通 过 调用 MapOutputTracker 的 getServerStatuses ( 见 代 码 清单 6-29) 来 获取 map 任 务 执行 的 状态 信息 ， 其 处 理 步骤 如 下 : 




















1) 从 当前 BlockManager 的 MapOutputTracker 中 获取 MapStatus， 若 没有 就 进入 第 2) 步 ， 否 则 直接 到 第 4) +. 














2) 如 果 获 取 列 表 (fetching) 中 已 经 存在 要 取 的 shuffleld， 那 么 就 等 待 其 他 线程 获取 。 如 果 获 取 列表 中 不 存在 要 取 的 shuffleld， 那 么 就 将 shuffleld 放 入 获取 列表 。 














3) 调用 askTracker 方 法 ( 见 代码 清单 6-30) 向 MapOutputTrackerMasterActor 发 送 Get-MapOutputStatuses 消 息 获取 map 任 务 的 状态 信息 。MapOutputTrackerMasterActor 接 收 到 
GetMapOutputStatuses 消 息 后 ， 将 请 求 的 map 任 务 状态 信息 序列 化 后 发 送 给 请 求 方 ， 见 代码 清单 6-31。 请 求 方 接 收 到 map 任 务 状态 信息 后 进行 反 序列 化 操作 ， 然 后 放 入 本 地 的 map-Statuses 中 。 














4) 调用 MapOutputTracker 的 convertMapStatuses 方 法 ( 见 代码 清单 6-32) 将 获得 的 Map-Status 转 换 为 map 任 务 所 在 的 地 址 ( 即 BlockManagerld) 和 map 任 务 输出 中 分 配给 当前 reduce 任 务 的 
Block 大 小 。 


代码 清单 6-29 MapOutputTracker.getServerStatuses 的 代码 


def getServerStatuses (shuffleId: Int, reduceId: Int): Array[(BlockManagerId, Long)] = { 
val statuses mapStatuses.get (shuffleId) .orNull 
if (statuses null) { 
logInfo ("Don't have map outputs for shuffle " + shuffleId + ", fetching them") 
var fetchedStatuses: Array[MapStatus] = null 
fetching.synchronized { 
// Someone else is fetching it; wait for them to be done 
while (fetching.contains(shufflelId)) { 
try { 
fetching.wait () 
} catch { 
case e: InterruptedException => 





} 
$ 
fetchedStatuses = mapStatuses.get (ShuffleId) .orNull 
if (fetchedStatuses == null) { 
fetching += shuffleId 
} 


} 
if (fetchedStatuses == null) { 
try { 
val fetchedBytes = 
askTracker (GetMapOutputStatuses (shuffleId) ) .asInstance-Of [Array [Byte] ] 
fetchedStatuses = MapOutputTracker.deserializeMapStatuses (fetchedBytes) 
logInfo ("Got the output locations") 
mapStatuses.put (shuffleId, fetchedStatuses) 
} finally { 
fetching.synchronized { 
fetching -= shuffleId 
fetching.notifyAl1 () 


i 
} 
if (fetchedStatuses != null) { 
fetchedStatuses.synchronized { 
return MapOutputTracker.convertMapStatuses (shuffleId, reduceId, fetchedStatuses) 
} 
} else { 
logError ("Missing all output locations for shuffle " + shuffleId) 
throw new MetadataFetchFailedException ( 
shuffleId, reduceId, "Missing all output locations for shuffle " + shuffleId) 
} 
} else { 
statuses.synchronized { 
return MapOutputTracker.convertMapStatuses (shuffleId, reduceId, statuses) 
} 


代码 清单 6-30 MapOutputTracker.askTracker 的 实现 





protected def askTracker (message: Any): Any = { 
tey 
r val future = trackerActor.ask (message) (timeout) 
Await.result (future, timeout) 
} catch { 
case e: Exception => 
logError ("Error communicating with MapOutputTracker", e) 
throw new SparkException ("Error communicating with MapOutputTracker", e) 


代码 清单 6-31 MapOutputTrackerMasterActor 处 理 GetMapOutputStatuses 消 息 





case GetMapOutputStatuses (shuffleId: Int) => 
val hostPort = sender.path.address.hostPort 
logInfo("Asked to send map output locations for shuffle " + shuffleId + " to " + hostPort) 
val mapOutputStatuses = tracker.getSerializedMapOutputStatuses (ShuffleId) 
val serializedSize = mapOutputStatuses.size 
if (serializedSize > maxAkkaFrameSize) { 
val msg = s"Map output statuses were $serializedSize bytes which " + 
s"exceeds spark.akka.frameSize ($maxAkkaFrameSize bytes) ." 

val exception = new SparkException (msg) 
logError (msg, exception) 
throw exception 

} 

sender ! mapOutputStatuses 





代码 清单 6-32 map 任 务 地 址 转换 





private def convertMapStatuses ( 
shuffleId: Int, 
reduceld: Int, 
statuses: Array[MapStatus]): Seq[(BlockManagerId, Seq[(BlockId, Long)])] = { 
assert (statuses != null) 
val splitsByAddress = new HashMap[BlockManagerId, ArrayBuffer[(BlockId, Long) ]] 
for ((status, mapId) <- statuses.zipWithIndex) { 
if (status == null) { 
val errorMessage = s"Missing an output location for shuffle $shuffleId" 
logError (errorMessage) 
throw new MetadataFetchFailedException(shuffleId, reduceId, errorMessage) 
} else { 
splitsByAddress.getOrElseUpdate (status.location, ArrayBuffer()) += 
((ShuffleBlockId(shuffleId, mapId, reduceId), status.getSizeForBlock (reduceId) ) ) 
} 


} 
splitsByAddress.toSeq 





6.5.2 ”划分 本 地 与 远程 Block 


无 论 从 本 地 还 是 从 MapOutputTrackerMasterActor 获 取 的 状态 信息 ， 都 需要 按照 地 址 划分 并 且 转 换 为 Blockld。shuffleBlockFetcherlterator 是 读 取 中 间 结 果 的 关键 。 构 造 Shuffle- 
BlockFetcherlterator 的 时 候 会 调用 到 initialize 方 法 ( 见 代码 清单 6-33) ， 它 的 初始 化 过 程 如 下 : 




















1) 使 用 splitLocalRemoteBlocks 方 法 划分 本 地 读 取 和 远程 读 取 的 Block 的 请 求 。 











2) 将 FetchRequest 随 机 排序 后 存 入 fetchRequests: newQueue[FetchRequest]。 


3) 遍历 fetchRequests 中 的 所 有 FetchRequest， 远 程 请 求 Block 中 间 结 果 。 











4) 调用 fetchLocalBlocks 获 取 本 地 Block。 





代码 清单 6-33 ”ShuffleBlockFetcherlterator 的 初始 化 





private[this] def initialize(): Unit = { 
context .addTaskCompletionListener(_ => cleanup ()) 
val remoteRequests = splitLocalRemoteBlocks () 
fetchRequests ++= Utils. randomize (remoteRequests) 
while (fetchRequests.nonEmpty && 
(bytesInFlight == 0 || bytesInFlight + fetchRequests.front.size <= maxBytes-InFlight)) { 
sendRequest (fetchRequests .dequeue () ) 


val numFetches = remoteRequests.size - fetchRequests.size 

logInfo ("Started " + numFetches + " remote fetches in" + Utils.getUsedTimeMs (startTime) ) 
fetchLocalBlocks () 

logDebug ("Got local blocks in " + Utils.getUsedTimeMs (startTime) ) 











splitLocalRemoteBlocks 方 法 ( 见 代码 清单 6-34) 用 于 划分 哪些 Block 从 本 地 获取 ， 哪 些 需 要 远程 拉 取 ， 是 获取 中 间 计 算 结果 的 关键 。 为 便于 描述 ， 先 解释 以 下 定义 : 














+ targetRequestSize: 每 个 远程 请 求 的 最 大 尺寸 。 

- totalBlocks: 统计 Block 总 数 

- localBlocks: ArrayBuffer[BlockIdj ， 缓 存 可 以 在 本 地 获取 的 Block 的 blockId。 
- temoteBlocks: HashSet[BlockIdj， 缓 存 需 要 远程 获取 的 Block 的 blockId。 


“ curBlocks: ArrayBuffer[ (BlockId, Long) ]， 远 程 获取 的 累加 缓存 ， 用 于 保证 每 个 远程 请 求 的 尺寸 不 超过 targetRequestSize。 为 什么 要 累加 缓存 ? 如 果 向 一 个 机 器 节点 频繁 地 请 求 字 节 数 很 小 的 Block， 那 
么 势必 造成 网 络 拥塞 并 增加 节点 负担 。 将 多 个 小 数据 量 的 请 求 合并 为 一 个 大 的 请 求 将 避免 这 些 问题 ， 提 高 系统 性 能 。 


- curRequestSize: 当前 累加 到 curBlocks 中 的 所 有 Block 的 大 小 之 和 ， 用 于 保证 每 个 远程 请 求 的 尺寸 不 超过 targetRequestSize。 
+ remoteRequests: new ArrayBuffer[FetchRequestj， 缓 存 需要 远程 请 求 的 FetchRequest 对 象 。 
- numBlocksToFetch: 一 共 要 获取 的 Block 数 量 。 


+ maxBytesInFlight: 单 次 航班 请 求 的 最 大 字 节 数 。 什 么 叫 航班 ? 其 实 就 是 一 批 请 求 ， 这 批 请 求 的 字 节 总 数 不 能 超过 maxBytesInFlight， 而 且 每 个 请 求 的 字 节 数 不 能 超过 maxBytesInFlight 的 五 分 之 一 。 可 以 
通过 参数 spatk,reducetrmaxMbInFlight 来 控制 大 小 。 为 什么 每 个 请 求 的 字 节 数 不 能 超过 maxBytesInFlight 的 五 分 之 一 ?这样 做 是 为 了 提高 请 求 的 并 发 度 ， 允 许 5 个 请 求 分 别 从 5 个 节点 获取 数据 ， 最 大 限度 利用 各 节 
点 的 资源 。 


明白 了 这 些 定义 ， 我 们 一 起 来 看 看 splitLocalRemoteBlocks 的 处 理 逻 辑 吧 。 








1) 遍历 已 经 在 代码 清单 6-28 中 按照 BlockManagerld 分 组 的 blocklnfo， 如 果 blocklnfo 所 在 的 Executor 与 当前 Executor 相 同 ， 则 将 它 的 Blockld 存 入 localBlocks; 否则 ， 将 blocklnfo 的 Blockld 和 size 
累加 到 curBlocks， 将 blockld 存 入 remoteBlocks，curRequestSize 增 加 size 的 大 小 ， 每 当 curRequestSize > = targetRequestSize， 则 新 建 FetchRequest 放 入 remoteRequests， 并 且 为 生成 下 一 个 


FetchRequest 做 一 些 准 备 (如 新 建 curBlocks，curRequestSize 置 为 0) 。 























2) 遍历 结束 ，curBlocks 中 如 果 仍 然 有 缓存 的 (Blockid, Long) ， 新 建 FetchRequest 放 入 remoteRequests。 此 次 请 求 不 受 maxByteslnFlight 和 targetRequestSize 的 影响 。 


代码 清单 6-34 ShuffleBlockFetcherlterator.splitLocalRemoteBlocks 方 法 


private[this] def splitLocalRemoteBlocks(): ArrayBuffer[FetchRequest] = { 
val targetRequestSize = math.max(maxBytesInFlight / 5, 1L) 
val remoteRequests = new ArrayBuffer[FetchRequest] 
var totalBlocks = 0 
for ((address, blockInfos) <- blocksByAddress) { 
totalBlocks += blockInfos.size 
if (address.executorId == blockManager.blockManagerId.executorId) { 
localBlocks ++= blockInfos.filter(_._2 != 0).map(_._1) 
numBlocksToFetch += localBlocks.size TE 
} else { 
val iterator = blockInfos.iterator 
var curRequestSize = 0L 
var curBlocks = new ArrayBuffer[(BlockId, Long) ] 
while (iterator.hasNext) { 


val (blockId, size) = iterator.next () 
if (size > 0) { 
curBlocks += ((blockId, size) ) 


remoteBlocks += blockId 
numBlocksToFetch += 1 
curRequestSize += size 
} else if (size < 0) { 
throw new BlockException(blockId, "Negative block size " + size) 
} 
if (curRequestSize >= targetRequestSize) { 
remoteRequests += new FetchRequest (address, curBlocks) 
curBlocks = new ArrayBuffer[(BlockId, Long) ] 
logDebug(s"Creating fetch request of $curRequestSize at $address") 
curRequestSize = 0 
} 
} 
if (curBlocks.nonEmpty) { 
remoteRequests += new FetchRequest (address, curBlocks) 
} 
} 
} 


remoteRequests 


6.5.3 ”获取 远程 Block 




















sendRequest 方 法 ( 见 代码 清单 6-35) 用 于 远程 请 求 中 间 结 果 。sendRequest 利 用 Fetch-Request 里 封装 的 blockld、size、address 等 信息 ， 调 


























间 计 算 结 果 。shuffleClient.fetchBlocks 方 法 可 以 参阅 4.2.5 节 。 


代码 清单 6-35 ShuffleBlockFetcherlterator.sendRequestHik 











shuffleClient 的 fetchBlocks 方 法 获取 其 他 节点 上 的 中 





private[this] def sendRequest (req: FetchRequest) { 
logDebug ("Sending request for %d blocks (%s) from %s". format ( 
req.blocks.size, Utils.bytesToString(req.size), req.address.hostPort) ) 
bytesInFlight += req.size 
val sizeMap = req.blocks.map { case (blockId, size) => (blockId.toString, size) }.toMap 
val blockIds = req.blocks.map(_._1.toString) 
val address = req.address 7 
shuffleClient.fetchBlocks (address.host, address.port, address.executorId, blockIds.toArray, 
new BlockFetchingListener { 
override def onBlockFetchSuccess (blockId: String, buf: ManagedBuffer): Unit = { 
if (!isZombie) { 
buf.retain () 
results.put (new SuccessFetchResult (BlockId(blockId), sizeMap(blockId), buf) ) 
shuffleMetrics.remoteBytesRead += buf.size 
shuffleMetrics.remoteBlocksFetched += 1 
} 
logTrace ("Got remote block " + blockId + " after " + Utils.getUsed-TimeMs (startTime) ) 
i 
override def onBlockFetchFailure(blockId: String, e: Throwable): Unit = { 
logError(s"Failed to get block(s) from ${req.address.host}:${req.address.port}", e) 
results.put (new FailureFetchResult (BlockId(blockId), e)) 


6.5.4 ”获取 本 地 Block 























fetchLocalBlocks ( 见 代码 清单 6-36) 用 于 对 本 地 中 间 计 算 结果 的 获取 。fetchLocalBlocks 方 法 很 简单 ， 利 用 熟悉 的 BlockManager 的 getBlockData 方 法 获取 本 地 Block， 最 后 将 取 到 的 中 间 结 果 存 入 


results = new LinkedBlockingQueue[FetchResult] 中 。 


代码 清单 6-36 ShuffleBlockFetcherlterator.fetchLocalBlocks 方 法 


private[this] def fetchLocalBlocks() { 
val iter = localBlocks.iterator 
while (iter.hasNext) { 
val blockId = iter.next () 
try { 
val buf = blockManager.getBlockData (blockId) 
shuffleMetrics.localBlocksFetched += 1 
buf.retain() 
results.put (new SuccessFetchResult (blockId, 0, buf)) 
} catch { 
case e: Exception => 
logError(s"Error occurred while fetching local blocks", e) 
results.put (new FailureFetchResult (blockId, e)) 
return 





6.6 reduce 端 计算 


6.6.1 ”如何 同时 处 理 多 个 map 任 务 的 中 间 结 果 


reduce 任 务 的 上 游 map 任 务 可 能 有 多 个 ， 根 据 之 前 的 分 析 ， 知 道 这 些 中 间 结 果 的 Block 及 数据 缓存 在 ShuffleBlockFetcherlterator 的 results: new LinkedBlockingQueue[FetchResult] 中 。 
ShuffleBlockFetcherlterator 作 为 迭代 器 ， 它 的 实现 见 代码 清单 6-37。 从 其 实现 可 知 ， 每 次 迭代 ShuffleBlockFetcherlterator， 会 先 从 results: new LinkedBlockingQueue[FetchResult] 中 取出 一 个 
FetchResult， 并 构造 此 FetchResult 的 迭代 器 iteratorTry， 具 体 迭 代 的 数据 就 是 从 iteratorTry 中 获取 。 每 当 iteratorTry 迭 代 结 束 ， 才 会 再 次 迭代 ShuffleBlockFetcherlterator。 





























代码 清单 6-37 ShuffleBlockFetcherlterator.scala 





override def hasNext: Boolean = numBlocksProcessed < numBlocksToFetch 
override def next(): (BlockId, Try[Iterator[Any]]) = { 
numBlocksProcessed += 1 
val startFetchWait = System.currentTimeMillis () 
currentResult = results.take() 
val result = currentResult 
val stopFetchWait = System.currentTimeMillis () 
shuffleMetrics.fetchWaitTime += (stopFetchWait - startFetchWait) 
result match { 
case SuccessFetchResult (_, size, _) => bytesInFlight -= size 
case _ => E T 


} 

while (fetchRequests.nonEmpty && 
(bytesInFlight == 0 || bytesInFlight + fetchRequests.front.size <= maxBytesInFlight)) { 
sendRequest (fetchRequests . dequeue () ) 


val iteratorTry: Try[Iterator[Any]] = result match { 
case FailureFetchResult (_, e) => 
Failure (e) 
case SuccessFetchResult (blockId, _, buf) => 
Try (buf.createInputStream()).map { is0 => 
val is = blockManager.wrapForCompression (blockId, is0) 
val iter = serializer.newInstance() .deserializeStream(is) .asIterator 
CompletionIterator[Any, Iterator[Any]] (iter, { 
currentResult = null 
buf.release () 
3) 
} 


} 
(result.blockId, iteratorTry) 


Ore 


由 于 之 前 远程 获取 Block 时 ， 一 小 部 分 请 求 可 能 就 达到 了 maxBytesInFlight 的 限制 ， 所 以 很 有 可 能 会 剩余 很 多 请 求 没有 发 送 。 所 以 每 此 迭代 ShuffleBlockFetcher-Iterator 的 时 候 还 有 个 附加 动作 用 于 发 送 剩 余 请 


6.6.2 ”reduce 端 在 缓存 中 对 中 间 计 算 结果 执行 聚合 和 排序 
reduce 端 获取 map 端 任务 计算 中 间 结 果 后 ， 将 ShuffleBlockFetcherlterator 封 装 为 Interru-ptiblelterator 并 聚合 。 聚 合 操 作 主 要 依赖 aggregator 的 combineCombinersByKey 方 法 ， 见 代码 清单 6- 


38。 如 果 isSpillEnabled 为 false， 会 再 次 使 用 AppendOnlyMap 的 changeValue 方 法 ， 这 些 内 容 已 在 6.2 节 介绍 AppendOnlyMap 的 缓存 聚合 算法 时 做 过 详细 介绍 。isSpillEnabled 默 认 是 true， 此 时 会 使 
ExternalAppendOnlyMap 完 成 聚合 。 


























代码 清单 6-38 Aggregator.combineCombinersByKey 的 实现 


def combineCombinersByKey (iter: Iterator[_ <: Product2[K, C]], context: TaskContext) 
: Iterator[(K, C)] = 
{ 


if (!isSpillEnabled) { 
val combiners = new AppendOnlyMap[K,C] 
var kc: Product2[K, C] = null 
val update = (hadValue: Boolean, oldValue: C) => { 
if (hadValue) mergeCombiners(oldValue, kc. 2) else kc. 2 
} 
while (iter.hasNext) { 
kc = iter.next () 
combiners.changeValue(kc._1, update) 
} 
combiners.iterator 
} else { 
val combiners = new ExternalAppendOnlyMap[K, C, C] (identity, mergeCombiners, mergeCombiners) 
while (iter.hasNext) { 
val pair = iter.next () 
combiners.insert(pair._1, pair. 2) 
} 
Option (context) .foreach { c => 
c.taskMetrics.memoryBytesSpilled += combiners.memoryBytesSpilled 
c.taskMetrics.diskBytesSpilled += combiners.diskBytesSpilled 
} 


combiners. iterator 

















ExternalAppendOnlyMap 的 insert 方 法 的 实际 工作 是 由 insertAll 完 成 的 ， 见 代码 清单 6-39。 从 代码 实现 可 以 看 到 其 实质 也 是 使 用 SizeTrackingAppendOnlyMap， 已 在 介绍 AppendOnlyMap 的 缓存 
聚合 算法 时 做 过 详细 介绍 。 








代码 清单 6-39 ExternalAppendOnlyMap 的 insert 方 法 





def insert (key: K, value: V): Unit = { 
insertAll (Iterator ( (key, value) ) ) 
} 
def insertAll (entries: Iterator[Product2[K, V]]): Unit = { 
var curEntry: Product2[K, V] = null 
val update: (Boolean, C) => C = (hadVal, oldVal) => { 
if (hadVal) mergeValue(oldVal, curEntry. 2) else createCombiner(curEntry. 2) 


while (entries.hasNext) { 
curEntry = entries.next () 
if (maybeSpill(currentMap, currentMap.estimateSize())) { 
currentMap = new SizeTrackingAppendOnlyMap[K, C] 
} 
currentMap.changeValue (curEntry. 1, update) 
addElementsRead () ~ 





经 过 以 上 处 理 ， 数 据 结果 为 类 似 (#4, 8), (N, 1), (set, 2), (use, 3) , | (Hadoop-supported, 1) 的 样子 。 


6.7 map 端 与 reduce 端 组 合 分 析 

















这 一 节 主 要 对 计算 引擎 部 分 的 内 容 进行 串联 ， 用 图 来 展示 最 常见 的 几 种 组 合 ， 以 便 大 家 对 计算 引擎 有 个 宏观 的 认识 。 其 中 的 具体 执行 过 程 ， 已 在 本 章 之 前 的 内 容 中 介绍 过 ， 此 处 不 再 歼 述 。 

















6.7.1 在 map 端 溢出 分 区 文件 ， 在 reduce 端 合并 组 合 


bypassMergeSort 标 记 是 否 传递 到 reduce 端 再 做 合并 和 排序 ， 此 种 情况 不 使 用 缓存 ， 而 是 先 将 数据 按照 partition 写 入 不 同文 件 ， 最 后 按 partition 顺 序 合并 写 入 同一 文件 。 当 没有 指定 聚合 、 排 序 函 数 ， 
且 partition 数 量 较 小 时 ， 一 般 采 用 这 种 方式 。 此 种 方式 将 多 个 bucket 合 并 到 同一 个 文件 ， 通 过 减少 map 输 出 的 文件 数量 ， 节 省 了 磁盘 |/O， 最 终 提升 了 性 能 ， 见 图 6-6。 
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图 6-6 ”map 端 溢出 分 区 文件 与 reduce 端 合并 组 合 


6.7.2 在 map 端 简单 缓存 、 排 序 分 组 ， 在 reduce 端 合并 组 合 








此 种 情况 在 缓存 中 利用 指定 的 排序 函数 对 数据 按照 partition 或 者 key 进 行 排序 ， 最 后 按 partition 顺 序 合并 写 入 同一 文件 。 当 没有 指定 聚合 函数 ， 且 partition 数 量 大 时 ， 一 般 采 用 这 种 方式 ， 见 图 6-7。 此 
种 方式 将 多 个 bucket 合 并 到 同一 个 文件 ， 通 过 减少 map 输 出 的 文件 数量 ， 节 省 了 磁盘 VO， 提 升 了 性 能 ; 对 SizeTrackingPairBuffer 的 缓存 进行 溢出 判断 ， 当 超出 myMemoryThreshold 的 大 小 时 ， 将 数据 
写 入 磁盘 ， 防 止 内 存 溢出 。 
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图 6-7 ”mapb 端 简单 缓存 、 排 序 分 组 与 reduce 端 合并 组 合 


6.7.3 ”在 map 端 缓存 中 聚合 、 排 序 分 组 ， 在 reduce 端 组 合 











此 种 情况 在 缓存 中 对 数据 按照 key 聚 合 ， 并 且 利 用 指定 的 排序 函数 对 数据 按照 partition 或 者 key 进 行 排序 ， 最 后 按 partition 顺 序 合并 写 入 同一 文件 。 当 指定 了 聚合 函数 时 ， 一 般 采 用 这 种 方式 ， 见 图 6- 
8。 此 种 方式 将 多 个 bucket 合 并 到 同一 个 文件 ， 通 过 减少 map 输 出 的 文件 数量 ， 节 省 了 磁盘 /MO， 提 升 了 性 能 ;对 中 间 输 出 数据 不 是 一 次 性 读 取 ， 而 是 逐条 放 入 AppendOnlyMap 的 缓存 ， 并 对 数据 进行 聚 
合 ， 减 少 了 中 间 结 果 占 用 的 内 存 大 小 ; 对 AppendOnlyMap 的 缓存 进行 溢出 判断 ， 当 超出 myMemoryThreshold 的 大 小 时 ， 将 数据 写 入 磁盘 ， 防 止 内 存 溢 出 。 
































sort and group by partition 
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图 6-8 map 端 缓 存 中 聚合 、 排 序 分 组 与 reduce 端 组 合 


6.8 小 结 





本 章 从 和 迭代 计算 的 层 层 剥离 开始 ， 分 别 分 析 了 map 和 reduce 任 务 的 处 理 逻 辑 。 这 其 中 不 过 值得 读者 学 习 的 代码 实现 ， 比 如 : 
“RDD 选 代 计 算是 如 何 实现 容错 的 ? 基于 缓存 和 检查 点 。 
+ map 任 务 是 如 何 聚 合 的 ? 使 用 AppendOnlyMap 提 供 的 数据 结构 来 实现 聚合 。 
“ 为 什么 有 时 候 需 要 在 map 端 聚合 ? 为 了 降低 网 络 I/O ， 提 升 性 能 。 
:map 任务 如 何 输出 ? 按照 分 区 排序 或 者 分 组 后 生成 分 区 文件 ， 并 创建 分 区 索引 文件 标记 文件 中 各 个 分 区 数据 的 偏 移 量 和 长 度 。 
“ teduce 任 务 是 如 何 获取 mab 任 务 的 输出 的 ? 通过 mapOutputTracker 获 取 到 map 任 务 所 在 Executor 的 BlockManagerId 和 Block 的 大 小 ， 然 后 使 用 shuffleClient 下 载 。 


“ 发 送 请 求 时 有 哪些 性 能 优化 ? 对 请 求 分 批发 送 ， 限 制 分 批 请 求 的 大 小 ， 并 行 发 送 请 求 以 及 将 多 个 请 求 数据 小 的 请 求 合并 等 。 


第 7 章 部 署 模式 


事 在 四 方 ， 要 在 中 央 。 圣 人 执 要 ， 四 方 来 效 。 
一 一 《韩非子 》 
本 章 导 读 


之 前 的 章节 ， 笔 者 为 了 突出 讲解 Spark 各 个 组 件 的 原理 ， 主 要 以 local 部 署 模式 进行 源码 剖析 。 其 实 无 论 什么 模式 ， 大 多 数 代 码 逻 辑 都 是 通用 的 。 由 于 各 种 模式 在 部 署 上 有 很 多 差异 ， 所 以 笔者 在 本 章 专 门 
讲解 各 个 部 署 模式 的 差异 以 及 部 署 的 容错 。 


Spatk 目 前 支持 的 部 署 方 式 如 下 : 

- 本 地 部 署 模式 : local、local[IN] 或 者 localIN，maxRetries]。 主 要 用 于 代码 调试 和 跟踪 。 不 具备 容错 能 力 ， 所 以 不 适用 于 生产 环境 。 

“ 本 地 集群 部 署 模式 : local-clusterIN，cores，memory]。 也 主要 用 于 代码 调试 和 测试 ， 是 源码 学 习 常 用 的 模式 。 不 具备 容错 能 力 ， 不 能 用 于 生产 环境 。 
“ Standalone 部 署 模式 : spark: //。 具 备 容错 能 力 并 且 支 持 分 布 式 部 署 ， 所 以 可 用 于 实际 的 生产 。 

- 第 三 方 部 署 模式 : yatn-standalone、yarn-cluster、mesos: //、zk: //、simr: // 等 。 

在 正式 开始 本 章 内 容 之 前 ， 先 介绍 一 些 概念 : 

Driver: 应 用 驱动 程序 ， 可 以 理解 是 老板 的 客户 。 

- Master: Spatk 的 主 控 节 点 ， 可 以 理解 为 集群 的 老板 。 

:Wotker: Spatk 的 工作 节点 ， 可 以 理解 为 集群 的 各 个 主管 。 


` Executor: Spark 的 工作 进程 ， 由 Worker 监 管 ， 负 责 具体 任务 的 执行 。 


7.1 _ local 部署 模式 








本 书 在 讲解 各 章 内 容 时 ， 主 要 都 以 local 模 式 为 例 。local 部 署 模式 只 有 Driver， 没 有 Master 和 Worker， 执 行 任务 的 Executor 与 Driver 在 同一 个 JVM 进 程 内 。 为 了 更 直观 地 感受 local 模 式 ， 我 们 以 local 模 
式 下 的 任务 提交 与 执行 过 程 为 例 ， 见 图 7-1。 
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图 7-1 local 模式 下 的 任务 提交 与 执行 过 程 





到 7-1 中 local 模 式 下 的 任务 提交 与 执行 过 程 如 下 : 












































local 模 式 下 ExecutorBackend 的 实现 类 是 LocalBackend， 当 有 任务 要 提交 时 ， 由 


= 





2) LocalBackend 向 LocalActor 发 送 ReviveOffers 消 息 ， 为 任务 申请 资源 ; 

















LocalActor 收 到 ReviveOffers 消 息 后 ， 调 用 TaskScheduleriImpl 的 resourceOffers 方 法 日 








Ww 








4) 任务 获得 资源 后 ， 调 用 Executor 的 launchTask 方 法 运行 任务 ; 





























5) 在 任务 运行 过 程 中 ，Executor 中 运行 的 TaskRunner 通 过 调 


TaskSchedulerImpl 调 用 LocalBackend 的 reviveOffers 方 法 申请 资源 ; 


@ launchTask 





LocalBackend 的 status-Update 方 法 ， 实 现 向 LocalActor 发 送 statusUpdate 消 息 。LocalActor 接 收 到 StatusUpdate 消 息 ， 再 调 





和 请 资源 ，TaskSchedulerlmpl 将 根据 任务 申请 的 CPU 核 数 和 内 存 及 本 地 化 等 条 件 为 其 分 配 资源 ; 




















TaskSchedulerlImpl 的 statusUpdate 不 断 更 新 任务 的 状态 。 任 务 的 状态 有 LAUNCHING、RUNNING、FiNISHED、FAILED、KILLED 和 LOST 等 。 整 个 过 程 在 第 5 章 已 经 做 了 详细 描述 。 


7.2 ”local-cluster 部 署 模式 


local-cluster 是 一 种 伪 集群 部 署 模式 ，Driver、Master 和 Worker 在 同一 个 JVM 进 程 内 ， 可 以 存在 多 个 Worker， 每 个 Worker 会 有 多 个 Executor， 但 这 些 Executor 都 独自 存在 于 一 个 JVM 进 程 内 。 除 了 





这 些 ， 它 与 local 部 署 模式 还 有 什么 区 别 呢 ? 
+ 使 用 LocalSparkClustetr 启 动 集群 。 
: SpatkDeploySchedulerBackend 的 启动 过 程 不 同 。 
+ AppClient 的 启动 与 调度 。 


+ local-clustet 模 式 的 任务 执行 。 


在 3.6 节 ， 笔 者 曾经 以 local 模 式 为 例 ， 讲 解 了 TaskSchedulerlImpl 和 LocalBackend。 本 节 我 们 设置 master 为 “local-cluster[2，1，1024]”， 那 么 在 创建 TaskSchedulerlImpl 时 就 会 匹配 local-cluster 




















模式 。“local-cluster[2，1，1024]” 中 的 2 指定 了 Worker 数 量 (numSlaves) ，1 指 定 了 每 个 Worker 占 ， 
(memoryPerSlave) 。memoryPerSlave 必 须 比 executorMemory 大 ， 因 为 Worker 的 内 存 大 小 包括 Executor 占 用 的 内 存 。 























与 local 模 式 不 同 的 是 ，local-cluster 除 TaskSschedulerlmpl 外 ， 还 创 寻 
SparkDeploySchedulerBackend, 


Oza 
给 SparkDeploySchedulerBackend 的 shutdownCallback 绑 定 LocalSparkClustet 的 stop 方 法 ， 用 于 当 Driver 关 闭 时 关闭 集群 。 这 仅 限 于 local-cluster 模 式 。 


SparkContext 匹 配 local-cluster 模 式 的 代码 见 代 码 清单 7-1。 





代码 清单 7-1 SparkContext 匹 配 local-cluster 模 式 的 代码 





的 CPU 核 数 (coresPerSlave) ，1024 指 定 的 是 每 个 Worker 占 . 








的 内 存 大 小 




















EE 了 LocalSparkCluster，LocalSparkCluster 的 start 方 法 用 于 启动 集群 。local-cluster 模 式 中 使 








的 ExecutorBackend 的 实现 类 是 





Case LOCAL CLUSTER REGEX (numSlaves, coresPerSlave, memoryPerSlave) => 
// Check to make sure memory requested <= memoryPerSlave. Otherwise Spark will just hang. 
val memoryPerSlaveInt = memoryPerSlave.toInt 
if (sc.executorMemory > memoryPerSlaveInt) { 


throw new SparkException ( 
"Asked to launch cluster with %d MB RAM / worker but requested %d MB/worker". format ( 


memoryPerSlaveInt, sc.executorMemory) ) 


} 
val scheduler = new TaskSchedulerImpl (sc) 
val localCluster = new LocalSparkCluster ( 
numSlaves.toInt, coresPerSlave.toInt, memoryPerSlaveint) 
val masterUrls = localCluster.start () 
val backend = new SparkDeploySchedulerBackend (scheduler, sc, masterUrls) 
scheduler. initialize (backend) 
backend. shutdownCallback = (backend: SparkDeploySchedulerBackend) => { 


localCluster.stop () 


} 
(backend, scheduler) 





72.41 


LocalSparkCluster 的 启动 





在 介绍 LocalSparkCluster 的 启动 之 前 ， 先 介绍 下 LocalSparkCluster 中 定义 的 一 些 数据 结构 : 











+ masterActorSystems: 用 于 缓存 所 有 的 Master 的 ActorSystemi 


+ workerActorSystems: 维护 所 有 的 Wotket 的 ActorSystem。 


LocalSparkCluster 的 start 方 法 














ActorSystem， 见 代码 清单 7-2。 


代码 清单 7-2 LocalSparkCluster 的 实现 


于 创建 、 启 动 Master 的 ActorSystem 与 多 个 Worker 的 ActorSystem，LocalSparkCluster 的 stop 方 法 关闭 、 清 理 Master 的 ActorSystem 与 多 个 Worker 的 





private[spark] 

class LocalSparkCluster (numWorkers: Int, coresPerWorker: Int, memoryPerWorker: Int) 

extends Logging { 

private val localHostname = Utils.localHostName () 

private val masterActorSystems = ArrayBuffer[ActorSystem] () 

private val workerActorSystems = ArrayBuffer [ActorSystem] () 

def start(): Array[String] = { 
logInfo ("Starting a local Spark cluster with " + numWorkers + " workers.") 
val conf = new SparkConf (false) 


val 


(masterSystem, masterPort, _) = Master.startSystemAndActor(localHostname, 0, 0, conf) 


masterActorSystems += masterSystem 
val masterUrl = "spark://" + localHostname + ":" + masterPort 
val masters = Array (masterUr1l) 


for 


(workerNum <- 1 to numWorkers) { 


val (workerSystem, _) = Worker.startSystemAndActor(localHostname, 0, 0, coresPerWorker, 


memoryPerWorker, masters, null, Some (workerNum) ) 


workerActorSystems += workerSystem 


} 


masters 


def stop 


OQ { 


logInfo("Shutting down local Spark cluster.") 


works 
mast 
mast 
works 


erActorSystems. foreach (_.shutdown() ) 
erActorSystems. foreach C. shutdown () ) 
erActorSystems.clear () 
erActorSystems.clear () 





1. 启 动 Master 


startSystemAndActor 方 法 ( 见 代码 清单 7-3) 
Master 的 ActorSystem 的 Akka 访 问 地 址 是 akka: //sparkMaster，Akka 端 口 























代码 清单 7-3 Master.startSystemAndActor 的 实现 





于 创建 、 启 动 Master 的 ActorSystem， 然 后 将 Master 注 册 到 ActorSystem。 关 了 
在 每 次 启动 时 会 不 同 。 笔 者 本 地 当前 注册 的 Master 的 访问 地 址 为 Actor[akka: //sparkMaster/user/Master#1813834079], 


FActorsystem 的 创建 细节 ， 已 在 3.2.2 节 详细 介绍 过 ， 此 处 不 再 再 述 。 





def startSystemAndActor ( 


host: St 
port: In 
webU: 
conf 
val secu: 
val (act 
secu: 


val actor = actorSystem.actorOf (Props (classOf [Master], host, boundPort, webUiPort, securityMgr), actorName) 


val time 
val resp! 
val resp 
(actorSy: 


ring, 

t, 

iPort: Int, 

: SparkConf): (ActorSystem, Int, Int) = { 


rityMgr = new SecurityManager (conf) 
orSystem, boundPort) = AkkaUtils.createActorSystem(systemName, host, port, conf = conf, 
irityManager = securityMgr) 


out = AkkaUtils.askTimeout (conf) 

Future = actor.ask (RequestWebUIPort) (timeout) 

= Await.result (respFuture, timeout) .asInstanceOf [WebUIPortResponse] 
stem, boundPort, resp.webUIBoundPort) 








向 Master 的 ActorSystem 注 册 Master 时 ， 会 先 触发 其 preStart 方 法 〈 见 代码 清单 7-4) 。 


代码 清单 7-4 ”Master 的 preStart 方 法 代码 


override def preStart() { 


logInfo ( 
context. 
webUi .bi 
masterWel 


context .system.scheduler.schedule(0 millis, WORKER_TIMEOUT millis, self, CheckForWorkerTimeOut) 


masterMe 
masterMe 
applicat. 
masterMe 
applicat. 
persiste 

case 


case 


case 

} 

leaderE1 
case 


case 


"Starting Spark master at " + masterUrl) 
system.eventStream. subscribe (self, classOf[RemotingLifecycleEvent] ) 
nd() 

bUiUrl = "http://" + masterPublicAddress + 





" + webUi.boundPort 


tricsSystem. registerSource (masterSource) 

tricsSystem. start () 

ionMetricsSystem. start () 

tricsSystem.getServletHandlers. foreach (webUi.attachHandler) 

ionMetricsSystem.getServletHandlers. foreach (webUi.attachHandler) 

nceEngine = RECOVERY_MODE match { 

"ZOOKEEPER" => 

logInfo("Persisting recovery state to ZooKeeper") 

new ZooKkeeperPersistenceEngine (SerializationExtension (context.system), conf) 

"FILESYSTEM" => 

logInfo ("Persisting recovery state to directory: " + RECOVERY DIR) 

new FileSystemPersistenceEngine (RECOVERY_DIR, SerializationExtension- (context .system) ) 
=> 


new BlackHolePersistenceEngine () 


ectionAgent = RECOVERY_MODE match { 

"ZOOKEEPER" => 

context .actorOf (Props (classOf [ZooKeeperLeaderElectionAgent], self, masterUrl, conf) ) 
=> 


context .actorOf (Props (classOf [MonarchyLeaderAgent], self) ) 





preStart 的 处 理 步骤 如 下 : 
1) 订阅 RemotingLifecycleEvent， 监 听 远 程 客户 端 断 开 连接 的 事件 。 


2) 


给 ActorSystem 增 加 定时 调 


























度 ， 向 自身 发 送 CheckForWorkerTimeOut 消 息 。Master 接 收 到 CheckForWorkerTimeOut 消 息 后 ， 会 匹配 调用 timeOutDeadWeorkers 方 法 处 理 ， 代 码 如 下 。 














case CheckForWorkerTimeOut => { 
timeOutDeadWorkers () 


} 





timeOutDeadWorkers 方 法 ( 见 代码 清单 7-5) 的 处 理 步骤 如 下 : 














@ 过 滤 出 所 有 超时 的 Worker。 即 使 用 当前 时 间 减 去 Worker 最 大 超时 时 间 仍 然 大 于 lastHeartbeat 的 Worker 节 点 。 











@ 如 果 Workerlnfo 的 状态 是 DEAD， 则 等 待 足够 长 的 时 间 后 将 它 从 workers 列 表 中 移 除 。 足 够 长 的 时 间 的 计算 公式 为 : 属性 spark.dead.worker.persistence 的 值 乘 以 Worker 最 大 超时 时 间 。 
spark.dead.worker.persistence 默 认 等 于 15。 如 果 Workerlnfo 的 状态 不 是 DEAD， 则 调用 removeWorker 方 法 ( 见 代码 清单 7-6) 将 Workerlnfo 的 状态 置 为 DEAD， 从 idToWorker 缓 存 中 移 除 Worker 的 
id， 从 addressToWorker 的 缓存 中 移 除 Workerlnfo， 最 后 向 此 Workerlnfo 的 所 有 Executor 所 服务 的 Drvier application 发 送 ExecutorUpdated 消 息 ， 更 新 Executor 的 状态 为 LOST。 最 后 使 
removeDriver ( 见 代码 清单 7-7) 重新 调度 之 前 调度 给 此 Worker 的 Driver。 

































































代码 清单 7-5 MastertimeOutDeadWorkers 的 实现 








def timeOutDeadWorkers() { 
val currentTime = System.currentTimeMillis () 
val toRemove = workers.filter(_.lastHeartbeat < currentTime - WORKER TIMEOUT) .toArray 
for (worker <- toRemove) { T = 
if (worker.state != WorkerState.DEAD) { 
logWarning ("Removing %s because we got no heartbeat in %d seconds". format ( 
worker.id, WORKER_TIMEOUT/1000) ) 
removeWorker (worker) 
} else { 
if (worker.lastHeartbeat < currentTime - ((REAPER ITERATIONS + 1) * WORKER _TIMEOUT)) { 
workers -= worker a T 


} 





代码 清单 7-6 ”删除 Worker 的 代码 








def removeWorker (worker: WorkerInfo) { 
logInfo ("Removing worker " + worker.id + " on " + worker.host + ":" + worker.port) 
worker. setState (WorkerState. DEAD) 
idToWorker -= worker.id 
addressToWorker -= worker.actor.path.address 
for (exec <- worker.executors.values) { 
logInfo ("Telling app of lost executor: " + exec.id) 
exec.application.driver ! ExecutorUpdated ( 
exec.id, ExecutorState.LOST, Some ("worker lost"), None) 
exec. application. removeExecutor (exec) 
} 
for (driver <- worker.drivers.values) { 
if (driver.desc.supervise) { 
logInfo(s"Re-launching ${driver.id}") 
relaunchDriver (driver) 
} else { 
logInfo(s"Not re-launching ${driver.id} because it was not supervised") 
removeDriver (driver.id, DriverState.ERROR, None) 
} 
} 


persistenceEngine.removeWorker (worker) 





代码 清单 7-7 ”删除 Driver 的 实现 





def removeDriver (driverId: String, finalState: DriverState, exception: Option[Exception]) { 
drivers.find(d => d.id == driverId) match { 
case Some(driver) => 

logInfo(s"Removing driver: $driverId") 

drivers -= driver 

if (completedDrivers.size >= RETAINED DRIVERS) { 
val toRemove = math.max(RETAINED DRIVERS / 10, 1) 
completedDrivers.trimStart (toRemove) 


completedDrivers += driver 
persistenceEngine. removeDriver (driver) 
driver.state = finalState 
driver.exception = exception 
driver.worker.foreach(w => w.removeDriver (driver) ) 
schedule () 
case None => 
logWarning(s"Asked to remove unknown driver: $driverId") 





3) 启动 webUl、masterMetricsSystem 和 applicationMetricsSystem， 然 后 给 masterMetricsSystem 和 applicationMetricsSystem 创 建 ServletContextHandler 并 注册 到 webUl。 这 些 内 容 读者 可 以 
回顾 3.4 及 3.9 几 节 的 内 容 。 


4) 选择 故障 恢复 的 持久 化 引擎 (persistenceEngine) ， 这 部 分 内 容 将 在 7.4 节 讲解 。 


5) 选择 领导 选举 代理 (leaderElectionAgent) ，local-cluster 模 式 中 将 向 Master 的 ActorSystem 注 册 MonarchyLeaderAgent， 因 此 触发 MonarchyLeaderAgent 的 preSstart 方 法 向 Master 发 送 
ElectedLeader 消 息 ， 代 码 如 下 。 








override def preStart() { 
masterActor ! ElectedLeader 


$ 


Master 接 收 到 ElectedLeader 消 息 后 会 进行 选举 操作 ， 由 于 local-cluster 模 式 中 只 有 一 个 Master， 所 以 persistenceEngine 没 有 持久 化 的 App、Driver、Worker 的 信息 ， 所 以 当前 Master 即 为 激活 
(ALIVE) 状态 的 ， 见 代码 清单 7-8。 这 里 涉及 Master 的 故障 恢复 ， 也 将 在 7.4 节 讲解 。 














代码 清单 7-8 ”Master 对 选举 消息 的 处 理 








case ElectedLeader => { 
val (storedApps, storedDrivers, storedWorkers) = persistenceEngine. readPersistedData () 
state = if (storedApps.isEmpty && storedDrivers.isEmpty && storedWorkers.isEmpty) { 
RecoveryState.ALIVE 
} else { 
RecoveryState.RECOVERING 
} 
logInfo("I have been elected leader! New state: " + state) 
if (state == RecoveryState.RECOVERING) { 
beginRecovery(storedApps, storedDrivers, storedWorkers) 
recoveryCompletionTask = context.system.scheduler.scheduleOnce (WORKER TIMEOUT millis, self, 
CompleteRecovery) T 





最 后 将 刚刚 创建 的 masterSystem 注 册 到 缓存 masterActorSystems， 并 将 Master 的 Akka 地 址 注册 到 缓存 masters。 


2. 启 动 Worker 





创建 完 masterSystem ， 开 始 创建 、 启 动 Worker 的 ActorSystem， 见 代码 清单 7-9。 所 有 Worker 的 ActorSystem 的 akka 的 访问 地 址 以 akka: /sparkWorker 加 Worker 编 号 来 访问 ， 例 如 : 
akka: //sparkWorker1, akka: /sparkWorker2 等 。 每 个 Worker 的 ActorSystem 都 需要 注册 自身 的 Worker。 同 时 每 个 Worker 的 ActorSystem 都 需要 注册 到 workerActorSystems 缓 存 。 

















代码 清单 7-9 ”Worker.startSystemAndActor 的 实现 


def startSystemAndActor ( 
host: String, 
port: Int, 
webUiPort: Int, 
cores: Int, 
memory: Int, 
masterUrls: Array[String], 
workDir: String, 


workerNumber: Option[Int] = None): (ActorSystem, Int) = { 
val conf = new SparkConf 
val systemName = "sparkWorker" + workerNumber.map(_.toString) .getOrElse("") 
val actorName = "Worker" 


val securityMgr = new SecurityManager (conf) 

val (actorSystem, boundPort) = AkkaUtils.createActorSystem(systemName, host, port, 
conf = conf, securityManager = securityMgr) 

actorSystem. actorOf (Props (classOf [Worker], host, boundPort, webUiPort, cores, memory, 
masterUrls, systemName, actorName, workDir, conf, securityMgr), name = actorName) 

(actorSystem, boundPort) 











注册 Worker 时 触发 它 的 prestart 方 法 〈 见 代码 清单 7-10) ， 其 处 理 步骤 如 下 : 





= 


创建 工作 目录 。 


2) 订阅 RemotingLifecycleEvent， 监 听 远 程 客户 端 断 开 连接 的 事件 。 





Ww 














启动 shuffleService， 此 处 的 shuffleService 虽 然 是 StandaloneWorkerShuffleService， 但 是 其 原理 和 4.2 节 讲解 的 ShuffleClient 一 样 使 用 了 Netty 的 异步 网 络 框架 ， 因 此 不 再 歼 述 。 


4) 创建 WorkerWebUl 并 启动 ， 可 以 参考 3.4 节 。 





w 


将 Worker 注 册 到 Master。 














6) 启动 metricsSystem， 并 且 给 metricsSystem 的 测量 信息 创建 servletContextHandler 后 注册 到 webU1， 读 者 可 以 参考 3.4 和 3.9 两 节 中 介绍 的 内 容 ， 其 过 程 都 是 类 似 的 。 











代码 清单 7-10 ”Worker.preStart 的 代码 实现 





override def preStart() { 
assert (! registered) 
logInfo ("Starting Spark worker %s:%d with %d cores, %s RAM". format ( 
host, port, cores, Utils.megabytesToString (memory) ) ) 
logInfo ("Spark home: " + sparkHome) 
createWorkDir () 
context. system.eventStream. subscribe (self, classOf[RemotingLifecycleEvent] ) 
shuffleService.startIfEnabled () 
webUi = new WorkerWebUI (this, workDir, webUiPort) 
webUi .bind () 
registerWithMaster () 
metricsSystem. registerSource (workerSource) 
metricsSystem. start () 
metricsSystem.getServletHandlers. foreach (webUi.attachHandler) 




















Worker 的 registerWithMaster 方 法 〈 见 代码 清单 7-11) 用 于 将 Worker 注 册 到 Master。 其 中 调用 了 tryRegisterAllMasters 方 法 ( 见 代码 清单 7-12) 向 所 有 Master 发 送 RegisterWorker 消 息 。 








代码 清单 7-11 将 Worker 注 册 到 Master 的 代码 


def registerWithMaster() { 
registrationRetryTimer match { 
case None => 
registered = false 
tryRegisterAllMasters () 
connectionAttemptCount = 0 
registrationRetryTimer = Some { 
context. system. scheduler .schedule (INITIAL REGISTRATION RETRY INTERVAL, 
INITIAL REGISTRATION RETRY_INTERVAL, self, ReregisterWithMaster) 
} 
case Some( ) => 
logInfo("Not spawning another attempt to register with the master, since there is an" + 
" attempt scheduled already.") 





代码 清单 7-12 WorkertryRegisterAllMasters 的 实现 


private def tryRegisterAllMasters() { 
for (masterUrl <- masterUrls) { 
logInfo ("Connecting to master " + masterUrl + "http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/...") 
val actor = context.actorSelection (Master.toAkkaUrl (masterUr1) ) = 
actor ! RegisterWorker(workerId, host, port, cores, memory, webUi.boundPort, publicAddress) 


代码 清单 7-13 列 出 了 Master 收 到 RegisterWorker 消 息 后 的 处 理 步骤 : 
1) 创建 Workerlnfo。 
2) 注册 Workerlnfo。 


3) 向 Worker 发 送 RegisteredWorker 消 息 ， 表 示 注 册 完 成 。 




















4) 调用 schedule 方 法 进行 资源 调度 。 


代码 清单 7-13 “Master 处 理 RegisterWorker 消 息 的 代码 





case RegisterWorker(id, workerHost, workerPort, cores, memory, workerUiPort, publicAddress) => 


logInfo ("Registering worker %s:%d with %d cores, %s RAM". format ( 


workerHost, workerPort, cores, Utils.megabytesToString (memory) ) ) 
if (state == RecoveryState.STANDBY) { 
// ignore, don't send response 
} else if (idToWorker.contains(id)) { 
sender ! RegisterWorkerFailed("Duplicate worker ID") 
} else { 
val worker = new WorkerInfo(id, workerHost, workerPort, cores, memory, 
sender, workerUiPort, publicAddress) 
if (registerWorker(worker)) { 
persistenceEngine.addWorker (worker) 
sender ! RegisteredWorker (masterUrl, masterWebUiUr1) 
schedule () 
} else { 
val workerAddress = worker.actor.path.address 
logWarning ("Worker registration failed. Attempted to re-register worker at same " + 
"address: " + workerAddress) 
sender ! RegisterWorkerFailed("Attempted to re-register worker at same address: " 
+ workerAddress) 

















注册 Workerlnfo， 





实 就 是 将 其 添加 到 workers: HashSet[Workerlnfo] 中 ， 并 且 更 新 worker id 与 worker 以 及 worker address 与 worker 的 映射 关系 ， 见 代码 清单 7-14。 


代码 清单 7-14 MasterregisterWorker 的 实现 





def registerWorker (worker: WorkerInfo): Boolean = { 
workers.filter { w => 


(w.host == worker.host && w.port == worker.port) && (w.state == WorkerState.DEAD) 
}.foreach { w => 
workers -= w 


val workerAddress = worker.actor.path.address 
if (addressToWorker.contains (workerAddress)) { 
val oldWorker = addressToWorker (workerAddress) 
if (oldWorker.state == WorkerState.UNKNOWN) { 
removeWorker (oldWorker) 
} else { 
logInfo ("Attempted to re-register worker at same address: " + workerAddress) 
return false 
} 
} 


workers += worker 


idToWorker (worker.id) = worker 
addressToWorker (workerAddress) = worker 
true 





代码 清单 7-15 是 Worker 接 受 RegisteredWorker 消 息 的 处 理 逻 辑 ， 步 骤 如 下 : 


1) 标记 注册 成 功 。 











2) 调用 changeMaster 方 法 ( 见 代码 清单 7-16) 更 新 activeMasterUrl、activeMasterWeb-UiUrl、master、masterAddress 等 信息 。 











3) 启动 定时 调度 给 自己 发 送 SendHeartbeat 消 息 。 








代码 清单 7-15 Worker 处 理 RegisteredWorker 的 代码 





case RegisteredWorker (masterUrl, masterWebUiUrl) => 
logInfo ("Successfully registered with master " + masterUrl) 
registered = true 
changeMaster (masterUrl, masterWebUiUr1) 
context.system.scheduler.schedule(0 millis, HEARTBEAT MILLIS millis, self, SendHeartbeat) 
if (CLEANUP_ENABLED) { T 
logInfo(s"Worker cleanup enabled; old application directories will be deleted in: $workDir") 
context . system. scheduler .schedule (CLEANUP_INTERVAL MILLIS millis, 
CLEANUP_INTERVAL MILLIS millis, self, WorkDirCleanup) 





代码 清单 7-16 changeMaster 的 实现 





def changeMaster (url: String, uiUrl: String) { 
activeMasterUrl = url 
activeMasterWebUiUrl = uiUrl 
master = context.actorSelection (Master.toAkkaUrl (activeMasterUr1) ) 
masterAddress = activeMasterUrl match { 
case Master.sparkUrlRegex(_host, _port) => 
Address ("akka.tcp", Master.systemName, host, _port.toInt) 
case x => 
throw new SparkException ("Invalid spark URL: " + x) 
} 
connected = true 
// Cancel any outstanding re-registration attempts because we found a new master 
registrationRetryTimer.foreach(_.cancel ()) 
registrationRetryTimer = None 





Worker 收 到 SendHeartbeat 消 息 后 ,会 向 Master 转 发 Heartbeat 消 息 ， 代 码 如 下 。 


case SendHeartbeat => 
if (connected) { master ! Heartbeat (workerId) } 

















Master 收 到 Heartbeat 消 息 后 的 实现 〈 见 代码 清单 7-17) 用 于 更 新 Workerlnfo 的 lastHeart-beat， 即 最 后 一 次 接收 到 心跳 的 时 间 戳 。 如 果 Worker 的 id 与 Worker 的 映射 关系 (idToWorker) 中 找 不 到 
匹配 的 Worker， 但 是 Worker 的 缓存 (workers) 中 却 存在 此 id， 那 么 向 Worker 发 送 ReconnectWorker 消 息 。 

















代码 清单 7-17 “Master 接收 Heartbeat 消 息 的 代码 





case Heartbeat (workerId) => { 
idToWorker.get (workerId) match { 
case Some (workerInfo) => 
workerInfo.lastHeartbeat = System.currentTimeMillis () 
case None => 
if (workers.map(_.id).contains(workerId)) { 
logWarning(s"Got heartbeat from unregistered worker $workerId." + 
" Asking it to re-register.") 
sender ! ReconnectWorker (masterUrl) 
} else { 
logWarning(s"Got heartbeat from unregistered worker $workerId." + 
" This worker was never registered, so ignoring the heartbeat.") 











经 过 以 上 源码 分 析 ， 我 们 得 出 以 下 结论 : local-cluster 模 式 下 有 一 个 Master 和 多 个 Worker， 它 们 位 于 同一 个 JVM 内 ， 通 过 各 自 启 动 的 ActorSystem 通 信 。 











7.2.2 ”CoarseGrainedSchedulerBackend 的 启动 


local-cluster 模 式 中 ， 除 了 创建 TaskSscheduler 的 时 候 与 local 模 式 不 同 ， 启 动 taskScheduler 时 ， 也 会 不 同 。 根 据 3.8 节 我 们 知道 ， 最 终 会 调用 backend 的 start 方 法 。 在 local-cluster 模 式 中 ，backend 
为 SparkDeploySchedulerBackend。SparkDeploySchedulerBackend 的 start 方 法 ( 见 代码 清单 7-18) 的 执行 过 程 如 下 : 














1) 调用 父 类 CoarseGrainedSchedulerBackend 的 start 方 法 ,注册 DriverActor。 





2) 进行 一 些 参 数 、Java 选 项 、 类 路 径 的 设置 。 这 些 配置 被 封装 为 Command， 然 后 由 ApplicationDescription 持 有 。ApplicationDescription 作 为 AppClient 的 构造 参数 ， 在 AppClient 启 动 时 传递 给 
Worker。Worker 最 终 利 用 ApplicationDescription 里 封装 的 Command 启 动 Executor。 





























3) 启动 AppClient。 


代码 清单 7-18 SparkDeployschedulerBackend 的 启动 实现 





override def start() { 

super.start () 

val driverUrl = "akka.tcp://%s@%s:%s/user/%s". format ( 
SparkEnv.driverActorSystemName, 
conf.get ("spark.driver.host"), 
conf.get ("spark.driver.port"), 
CoarseGrainedSchedulerBackend.ACTOR NAME) 

val args = Seq(driverUrl, "{{EXECUTOR_ID}}", "{{HOSTNAME}}", "{{CORES}}", "{{APP_ID}}", 
"{ {WORKER _URL} }") T ~ 

val extraJavaOpts = sc.conf.getOption ("spark.executor.extraJavaOptions") 
.map (Utils.splitCommandString) .getOrElse (Seq.empty) 

val classPathEntries = sc.conf.getOption ("spark.executor.extraClassPath") .toSeq.flatMap { cp => 
cp.split (java.io.File.pathSeparator) 


val libraryPathEntries = 
sc.conf.getOption ("spark.executor.extraLibraryPath") .toSeq.flatMap { cp => 
cp.split (java.io.File.pathSeparator) 


// Start executors with a few necessary configs for registering with the scheduler 

val sparkJavaOpts = Utils.sparkJavaOpts (conf, SparkConf.isExecutorStartupConf) 

val javaOpts = sparkJavaOpts ++ extraJavaOpts 

val command = Command ("org.apache.spark.executor.CoarseGrainedExecutorBackend", 
args, sc.executorEnvs, classPathEntries, libraryPathEntries, javaOpts) 

val appUIAddress = sc.ui.map(_.appUIAddress) .getOrElse("") 

val appDesc = new ApplicationDescription(sc.appName, maxCores, sc.executorMemory, command, 
appUIAddress, sc.eventLogDir) 

client = new AppClient(sc.env.actorSystem, masters, appDesc, this, conf) 

client.start () 

waitForRegistration () 
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CoarseGrainedSchedulerBackend 的 start 方 法 ( 见 代码 清单 7-19) 从 sc.conf 中 复制 Spark 属 性 ， 然 后 注册 并 持 有 DriverActor 的 引用 ， 这 与 LocalBackend 持 有 LocalActor 的 引用 不 同 。 











代码 清单 7-19 CoarseGrainedSchedulerBackend 的 start 方 法 


override def start() { 
val properties = new ArrayBuffer[ (String, String) ] 
for ((key, value) <- scheduler.sc.conf.getAll) { 
if (key.startsWith("spark.")) { 
properties += ((key, value) ) 
} 
} 
driverActor = actorSystem.actorOf ( 
Props (new DriverActor (properties)), name = CoarseGrainedSchedulerBackend.ACTOR_NAME) 





7.2.3 启动 AppClient 

















AppClient 主 要 用 于 代表 Application 和 Master 通 信 。AppClient 在 启动 时 ， 会 向 Driver 的 ActorSystem 注 册 ClientActor， 代 码 如 下 。 








def start() { 
actor = actorSystem.actorOf (Props (new ClientActor) ) 


} 








由 于 向 ActorSystem 注 册 Actor 时 ，ActorSystem 会 首先 回调 Actor 的 preStart 方 法 ， 所 以 ClientActor 在 正式 启动 前 会 触发 其 preStart 方 法 ， 见 代码 清单 7-20。preStart 方 法 首先 向 Driver 的 ActorSystem 
订阅 RemotingLifecycleEvent， 然 后 调用 registerWithMaster。 




















代码 清单 7-20 ”ClientActor 的 preStart 方 法 





override def preStart() { 
context .system.eventStream.subscribe (self, classOf[RemotingLifecycleEvent]) 
try { 
Y registerWithMaster () 
} catch { 
case e: Exception => 
logWarning ("Failed to connect to master", e) 
markDisconnected () 
context .stop (self) 


























registerWithMaster 方 法 ( 见 代码 清单 7-21) 调用 tryRegisterAllMasters 方 法 ， 向 所 有 的 Master 注 册 当 前 Application。 其 中 Master 依 然 使 用 system.actorSelection 方 式 获得 ， 可 参阅 附录 B。 注 册 
Application 实 际 是 通过 向 Master 发 送 RegisterApplication 消 息 实现 。 注 册 Application 时 ， 如 果 失 败 ， 最 多 会 尝试 3 次 。 




















代码 清单 7-21 ClientActor 的 registerWithMaster 实 现 


def tryRegisterAllMasters() { 
for (masterUrl <- masterUrls) { 
logInfo ("Connecting to master " + masterUrl + "http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/...") 
val actor = context.actorSelection (Master.toAkkaUrl (masterUr1) ) 


actor ! RegisterApplication (appDescription) 


} 


def registerWithMaster() { 
tryRegisterAllMasters () 
import context.dispatcher 
var retries = 0 
registrationRetryTimer = Some { 
context . system. scheduler .schedule (REGISTRATION_TIMEOUT, REGISTRATION TIMEOUT) { 
Utils.tryOrExit { 
retries t= 1 
if (registered) { 
registrationRetryTimer.foreach(_.cancel()) 
} else if (retries >= REGISTRATION_RETRIES) { 
markDead("All masters are unresponsive! Giving up.") 
} else { 
tryRegisterAllMasters () 














Master 接 收 到 RegisterApplication 消 息 后 ， 其 处 理 步骤 ( 见 代码 清单 7-22) 如 下 。 
1) 创建 Applicationlnfo。 
2) 注册 Applicationlnfo。 


3) 向 ClientActor 发 送 RegisteredApplication 消 息 。 











4) 调用 schedule 方 法 ， 执 行 调度 。 











代码 清单 7-22 Master 对 RegisterApplication 消 息 的 处 理 





case RegisterApplication(description) => { 

if (state == RecoveryState.STANDBY) { 
// ignore, don't send response 

} else { 
logInfo ("Registering app " + description.name) 
val app = createApplication (description, sender) 
registerApplication (app) 
logInfo ("Registered app " + description.name + " with ID " + app.id) 
persistenceEngine.addApplication (app) 
sender ! RegisteredApplication(app.id, masterUr1) 
schedule () 





创建 Applicationlnfo 的 实现 如 下 。 





def createApplication(desc: ApplicationDescription, driver: ActorRef): ApplicationInfo = { 
val now = System.currentTimeMillis () 
val date = new Date (now) 
new ApplicationInfo(now, newApplicationId(date), desc, date, driver, defaultCores) 


创建 Applicationlnfo 时 ， 调 用 了 init 方 法 ( 见 代码 清单 7-23) 。 其 中 创建 了 Application-Source， 与 创建 ExecutorSource 是 一 样 的 ， 请 参阅 3.8 节 。 另 外 还 声明 了 executors 用 于 缓存 分 配给 
Application 的 Executor。 


代码 清单 7-23 ”Applicationlnfo 的 初始 化 代码 





private def init() { 
state = ApplicationState.WAITING 
executors = new mutable.HashMap[Int, ExecutorInfo] 
coresGranted = 0 
endTime = -1L 
appSource = new ApplicationSource (this) 
nextExecutorId = 0 
removedExecutors = new ArrayBuffer [ExecutorInfo] 





注册 Applicationlnfo 的 过 程 ( 见 代 码 清单 7-24) 如 下 : 





1) 向 applicationMetricsSystem 注 册 ApplicationSource， 与 注册 ExecutorSource 是 一 样 的 ， 请 参阅 3.8.2 节 。 





2) 注册 Applicationlnfo， 并 且 更 新 它 与 app id, app driver, app address 的 关系 。 


代码 清单 7-24 ”Master.registerApplication 的 实现 





def registerApplication (app: ApplicationInfo): Unit = { 

val appAddress = app.driver.path.address 

if (addressToApp.contains (appAddress)) { 
logInfo ("Attempted to re-register application at same address: " + appAddress) 
return 

} 

applicationMetricsSystem.registerSource (app.appSource) 

apps += app 

idToApp (app.id) = app 

actorToApp (app.driver) = app 

addressToApp (appAddress) = app 

waitingApps += app 





向 ClientActor 发 送 的 RegisteredApplication 消 息 中 ， 包 含 app id 和 masterUrl。ClientActor 接 收 RegisteredApplication 消 息 后 的 处 理 步骤 ( 见 代码 清单 7-25) 如 下 : 





1) 更 新 appld， 并 标识 当前 Application 已 经 注册 到 Master; 











2) 调用 changeMaster 更 新 activeMasterUrl|、master、masterAddress 等 信息 ; 
































3) 调用 SparkDeploySchedulerBackend 的 connected 方 法 ( 见 代码 清单 7-26) 更 新 appld 并 且 调 























notifyContext 方 法 〈 见 代码 清单 7-27) 标识 Application 注 册 完 成 。 


代码 清单 7-25 “ClientActor 接 收 RegisteredApplication 消 息 的 代码 





case RegisteredApplication(appId_, masterUrl) => 


appId = appId 

registered = true 
changeMaster (masterUrl) 
listener.connected (appId) 





代码 清单 7-26 SparkDeploySchedulerBackend.connectedAi& 





override def connected(appId: String) { 
logInfo ("Connected to Spark cluster with app ID " + appId) 
this.appId = appId 
notifyContext () 

} 





代码 清单 7-27 SparkDeploySchedulerBackend.notifyContext 的 实现 


private def notifyContext() = { 
registrationLock.synchronized { 
registrationDone = true 
registrationLock.notifyAl11 () 
} 
} 











到 这 里 ， 整 个 local-cluster 模 式 的 启动 过 程 就 介绍 完了 ， 可 以 用 图 7-2 来 直观 表示 。 
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图 7-2 ”local-cluster 模 式 的 启动 过 程 


























这 里 对 图 7-2 中 local-cluster 模 式 的 启动 过 程 进行 简短 介绍 : 








1) LocalSparkCluster 首 先 启动 Master。Master 会 完成 订阅 RemotingLifecycleEvent， 启 动 检测 Worker 是 否 死 亡 的 定时 调度 ， 启 动 webUI， 启 动 测量 系统 ， 选 择 故 障 恢复 的 持久 化 引擎 ， 最 后 向 
Master 的 ActorSystem 注 册 领 导 选举 代理 (默认 为 MonarchyLeaderAgent) 。 











2) 注册 MonarchyLeaderAgent 时 ，ActorSystem 会 回调 MonarchyLeaderAgent 的 preStart 方 法 向 Master 发 送 ElectedLeader 消 息 进 行 Master 的 领导 选举 。 由 于 local-cluster 模 式 只 有 一 个 Master， 
因此 它 将 被 选举 为 激活 状态 的 Master。 




















3) LocalSparkCluster 启 动 多 个 Worker。 每 个 Worker 都 会 完成 创建 工作 目录 ， 订 阅 RemotingLifecycleEvent， 启 动 shuffleService， 启 动 WebUl， 启 动 测量 系统 ， 最 后 向 Master 注 册 Worker 等 工 
作 。 




















4) Master 收 到 RegisterWorker 消 息 后 完成 创建 与 注册 Workerlnfo， 向 Worker 发 送 RegisteredWorker 消 息 以 表示 注册 完成 ， 最 后 调用 schedule 方 法 进行 资源 调度 。 


























5) 启动 taskScheduler 时 调用 SparkDeploySchedulerBackend 的 start 方 法 。 


6) SparkDeploySchedulerBackend 调 用 父 类 CoarseGrainedSchedulerBackend 的 start 方 法 ， 向 ActorSystem 注 册 DriverActor。 























7) 进行 一 些 参数 、Java 选 项 、 类 路 径 的 设置 。 这 些 配 置 被 封装 为 Command， 然 后 由 ApplicationDescription 持 有 ， 最 后 启动 AppClient。 这 个 Command 用 于 在 Worker 上 启动 
CoarseGrainedExecutorBackend 进 程 ， 此 进程 将 创建 Executor 执 行 任务 。 








8) 启动 AppClient 时 ， 向 ActorSystem 注 册 ClientActor。 





9) 注册 ClientActor 时 ，ActorSystem 回 调 其 preStart 方 法 ， 完 成 订阅 RemotingLifecycle-Event， 并 且 调 用 registerWithMaster 方 法 向 Master 发 送 RegisterApplication 消 息 。 


10) Master 接 收 到 RegisterApplication 消 息 后 ， 完 成 创建 Applicationlnfo， 注 册 Applicationlnfo， 向 ClientActor 发 送 RegisteredApplication 消 息 ， 最 后 执行 调度 。 
724 ”资源 调度 


至 此 我 们 看 到 了 Master、Weorker 及 Application 的 启动 与 注册 ，Executor 是 作为 计算 资源 看 待 的 ， 但 是 一 直 不 见 Executor 的 踪影 ，Executor 是 何 时 创建 的 呢 ? Application 又 是 何 时 与 Executor 取 得 | 
系 的 呢 ? 换言之 ，Executor 是 什么 时 候 分 配给 Application 处 理 任务 的 呢 ? 下 面 我 们 一 起 来 看 看 Executor 是 如 何 创 建 和 调度 的 。 























无 论 是 注册 Worker 还 是 注册 Application， 最 后 都 会 调用 schedule 方 法 〈 见 代码 清单 7-28) 对 资源 调度 。 资 源 调度 的 过 程 分 为 两 步 : 逻辑 分 配 和 物理 分 配 。 








代码 清单 7-28 Master 的 schedule 方 法 代码 





for (app <- waitingApps if app.coresLeft > 0) { 
val usableWorkers = workers.toArray.filter(_.state == WorkerState.ALIVE) 
.filter (canUse (app, _)).sortBy(_.coresFree) .reverse 
val numUsable = usableWorkers.length 
val assigned = new Array[Int] (numUsable) // Number of cores to give on each node 
var toAssign = math.min(app.coresLeft, usableWorkers.map(_.coresFree) .sum) 
var pos = 0 
while (toAssign > 0) { 
if (usableWorkers (pos) .coresFree - assigned(pos) > 0) { 
toAssign -= 1 
assigned(pos) += 1 
} 
pos = (pos + 1) % numUsable 
} 
for (pos <- 0 until numUsable) { 
if (assigned(pos) > 0) { 
val exec = app.addExecutor (usableWorkers (pos), assigned (pos) ) 
launchExecutor (usableWorkers (pos), exec) 
app.state = ApplicationState.RUNNING 





1. 计 算 资源 逻辑 分 配 








对 资源 的 逻辑 分 配 主要 指 对 Worker 的 CPU 核 数 的 分 配 ， 即 将 当前 Application 的 CPU 核 数 需求 分 配 到 所 有 的 Worker 上 。 而 那些 内 存 不 满足 ApplicationDescription 中 指定 的 memory-Perslave 变 量 的 大 
小 的 会 被 过 滤 掉 。 给 Application 分 配 CPU 核 数 的 整个 处 理 步骤 如 下 。 

















1) 过 滤 出 所 有 可 用 的 Worker， 条 件 如 下 : 
“ 处 于 激活 (ALIVE) KA; 
- 空闲 内 存 大 于 等 于 Application 在 每 个 Worker 上 需要 的 内 存 (memoryPerSlave) ; 


“ ERA A Applications 47 Executor. 





2) 对 于 过 滤 得 到 的 Worker 按 照 其 空闲 内 核 数 倒序 排列 。 
3) 实际 需要 分 配 的 内 核 数 ， 从 Application 需 要 的 内 核 数 与 所 有 过 滤 后 的 Worker 的 空闲 内 核 数 的 总 和 两 者 中 取 最 小 值 。 


4) 如 果 需 要 分 配 的 内 核 数 大 于 0， 则 逐个 从 各 个 Worker 中 给 Application 分 配 1 个 内 核 。 当 所 有 Worker 都 分 配 过 后 ， 需 要 分 配 的 内 核 数 依然 大 于 0， 则 从 头 一 个 Worker 再 次 分 配 ， 如 此 往复 ， 直 到 
Application 需 要 的 内 核 数 为 0。 








为 了 方便 ， 假 设 满足 过 滤 条 件 并 且 已 经 按照 内 核 数 排序 的 Worker 为 Worker0、Worker1、Weorker2，Application 还 需要 的 内 核 数 (coresLeft) 等 于 7。Worker0 的 内 核 数 为 4，Worker1 的 内 核 数 为 
3，Worker2 的 内 核 数 为 2。 那 么 此 时 需要 分 配 的 内 核 数 toAssign 等 于 math.min (7, (4+3+2) ) ， 即 toAssign 为 7。 此 时 的 内 核 分 配 可 以 用 图 7-3 表 示 。 


Worker0 Workerl 8] Worker2 £] 

















core2:Core core3:Core core2:Core corel:Core 


图 7-3 资源 逻辑 分 配 前 
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进行 一 轮 内 核 分 配 后 如 图 7-4 所 示 。 
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图 7-4 第 一 轮 资源 逻辑 分 配 后 





第 二 轮 内 核 分 配 过 后 如 图 7-5 所 示 。 
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core2:Core core3:Core core2:Core 





图 7-5 第 二 轮 资源 逻辑 分 配 后 





内 核 分 配 完毕 时 如 图 7-6 所 示 。 














图 7-6 ”资源 逻辑 分 配 完毕 


以 上 介绍 的 内 容 ， 只 是 逻辑 上 给 Application 分 配 各 个 Worker 的 内 核 及 内 存 ， 下 面 一 起 看 看 计算 资源 真正 的 分 配 。 


2. 计 算 资 源 物理 分 配 

















计算 资源 物理 分 配 是 指 给 Application 物 理 分 配 Worker 的 内 存 以 及 核 数 。 由 于 在 逻辑 分 配 的 时 候 已 经 确定 了 每 个 Worker 分 配给 Application 的 核 数 ， 并 且 这 些 Worker 也 都 满足 Application 的 内 存 需 要 ， 
所 以 可 以 放心 地 进行 物理 分 配 了 。 物 理 分 配 的 步骤 如 下 : 





步骤 1 首先 使 用 Workerlnfo、 逻 辑 分 配 的 CPU 核 数 及 内 存 大 小 创建 Executorlnfo， 然 后 将 此 Executorlnfo 添 加 到 Applicationlnfo 的 executors 缓 存 中 ， 最 后 增加 已 经 授权 得 到 的 内 核 数 ， 实 现 如 下 。 




















def addExecutor (worker: WorkerInfo, cores: Int, useID: Option[Int] = None): ExecutorInfo = { 
val exec = new ExecutorInfo (newExecutorId(useID), this, worker, cores, desc.memoryPerSlave) 
executors (exec.id) = exec 
coresGranted += cores 
exec 























步骤 2 物理 分 配 通 过 调用 Master 的 launchExecutor 方 法 ( 见 代码 清单 7-29) 来 实现 ， 其 功能 如 下 : 























1) 将 Executorlnfo 添 加 到 Workerlnfo 的 executors 缓 存 中 ， 并 更 新 Worker 已 经 使 用 的 CPU 核 数 和 内 存 大 小 ， 见 代码 清单 7-30。 
2) 向 Worker 发 送 LaunchExecutor 消 息 ， 运 行 Executor。 


3) 向 ClientActor 发 送 ExecutorAdded 消 息 ，ClientActor 收 到 ExecutorAdded 消 息 后 ， 向 Master 发 送 ExecutorStateChanged 消 息 ， 见 代码 清单 7-31。Master 收 到 ExecutorStateChanged 消 息 ( 见 
代码 清单 7-49) 后 将 向 DriverActor 发 送 ExecutorUpdated 消 息 ， 用 于 更 新 Driver 上 有 关 Executor 的 状态 。 


代码 清单 7-29 MasterlaunchExecutor 的 实现 





def launchExecutor (worker: WorkerInfo, exec: ExecutorInfo) { 
logInfo ("Launching executor " + exec.fullId + " on worker " + worker.id) 
worker. addExecutor (exec) 
worker.actor ! LaunchExecutor (masterUrl, 
exec.application.id, exec.id, exec.application.desc, exec.cores, exec.memory) 
exec.application.driver ! ExecutorAdded ( 
exec.id, worker.id, worker.hostPort, exec.cores, exec.memory) 





代码 清单 7-30 ”Workerlnfo.addExecutor 的 实现 





def addExecutor (exec: ExecutorInfo) { 
executors (exec. fullId) = exec 
coresUsed += exec.cores 
memoryUsed += exec.memory 





代码 清单 7-31 ClientActor 收 到 ExecutorAdded 消 息 的 处 理 





case ExecutorAdded(id: Int, workerId: String, hostPort: String, cores: Int, memory: Int) => 
val fullId = appId + "/" + id 
logInfo ("Executor added: %s on %s (%s) with %d cores".format (fullId, workerId, hostPort, 
cores) ) 
master ! ExecutorStateChanged(appId, id, ExecutorState.RUNNING, None, None) 
listener.executorAdded(fullId, workerId, hostPort, cores, memory) 





Worker 接 到 LaunchExecutor 消 息 后 的 处 理 逻 辑 ( 见 代码 清单 7-32) 如 下 : 


1) 创建 Executor 的 工作 目录 。 











2) 创建 Application 的 本 地 目录 ， 当 Application 完 成 时 ， 此 目录 会 被 删除 。 











3) 创建 并 启动 ExecutorRunner。 
4) 向 Master 发 送 ExecutorStateChanged 消 息 。 


代码 清单 7-32 ”Worker 接 到 LaunchExecutor 消 息 后 的 处 理 








val executorDir = new File(workDir, appId + "/" + execId) 
if (!executorDir.mkdirs()) { 
throw new IOException ("Failed to create directory " + executorDir) 
} 
val appLocalDirs = appDirectories.get (appId) .getOrElse { 
Utils.getOrCreateLocalRootDirs(conf).map { dir => 
Utils.createDirectory (dir) .getAbsolutePath () 
}.toSeq 
} 
appDirectories (appId) = appLocalDirs 
val manager = new ExecutorRunner(appId, execId, appDesc, cores_, memory_, 
self, workerId, host, sparkHome, executorDir, akkaUrl, conf, appLocalDirs, 
ExecutorState. LOADING) 
executors (appId + "/" + execId) = manager 
manager.start () 
coresUsed += cores_ 
memoryUsed += memory 
master ! ExecutorStateChanged (appId, execId, manager.state, None, None) 











启动 ExecutorRunner 的 时 候 实际 创建 了 线程 workerThread 和 shutdownHook， 见 代码 清单 7-33。shutdownHook 用 于 在 Worker 关 闭 时 杀 掉 所 有 的 Executor 进 程 。 











代码 清单 7-33 ”启动 ExecutorRunner 








def start() { 
workerThread = new Thread("ExecutorRunner for " + fullId) { 
override def run() { fetchAndRunExecutor() } 


workerThread. start () 
shutdownHook = new Thread() { 
override def run() { 
killProcess (Some ("Worker shutting down") ) 
} 
} 
Runtime. getRuntime.addShutdownHook (shutdownHook) 

















workerThread 执 行 过 程 中 主要 调 











fetchAndRunExecutor 方 法 ( 见 代码 清单 7-34) ， 其 执行 步骤 如 下 。 

















a 





构造 ProcessBuilder， 进 程 主 类 是 org.apache.spark.executor.CoarseGrainedExecutor-Backend， 有 关 buildProcessBuilder 的 实现 ， 请 参阅 附录 F。 
2) 为 ProcessBuilder 设 置 执行 目录 、 环 境 变量 。 


3) 启动 ProcessBuilder， 生 成 进程 。 








向 进程 的 文件 输出 流 与 错误 流 为 executorDir 目 录 下 的 文件 stdout 与 stderr。 以 笔者 本 地 为 例 ， 分 别 为 : D: \git\spark\work\app-20150707144151-0000\0\stdout#ID: 
\git\spark\work\app-20150707144151-0000\0\stderr, 





un 


等 待 获取 进程 的 退出 状态 ， 一 旦 收 到 退出 状态 ， 则 向 Worker 发 送 ExecutorState-Changed 消 息 。 


代码 清单 7-34 ”ExecutorRunner 的 fetchAndRunExecutor 方 法 





def fetchAndRunExecutor() { 
try { 

val builder = CommandUtils.buildProcessBuilder (appDesc.command, memory, 
sparkHome.getAbsolutePath, substituteVariables) 

val command = builder.command () 

logInfo ("Launch command: " + command.mkString("\"", "\" \"", "\"")) 

builder.directory (executorDir) 

builder.environment .put ("SPARK_LOCAL DIRS", appLocalDirs.mkString(",")) 

builder.environment.put ("SPARK LAUNCH WITH SCALA", "0") 

process = builder.start () E R = 

val header = "Spark Executor Command: %s\n%s\n\n". format ( 
command.mkString("\"", "\" AN "\""), "=" * 40) 

val stdout = new File(executorDir, "stdout") 

stdoutAppender = FileAppender (process.getInputStream, stdout, conf) 

val stderr = new File(executorDir, "stderr") 

Files.write (header, stderr, UTF 8) 

stderrAppender = FileAppender (process.getErrorStream, stderr, conf) 

val exitCode = process.waitFor () 

state = ExecutorState.EXITED 





val message = "Command exited with code " + exitCode 
worker ! ExecutorStateChanged(appId, execId, state, Some (message), Some (exitCode) ) 
} catch { 


case interrupted: InterruptedException => { 
logInfo("Runner thread for executor " + fullId + " interrupted") 
state = ExecutorState.KILLED 
killProcess (None) 
} 
Case e: Exception => { 
logError ("Error running executor", e) 
state = ExecutorState.FAILED 
killProcess (Some (e. toString) ) 


} 








一 旦 执行 了 builder.start () ， 我 们 利用 jdk 自 带 的 工具 VisualVM 就 会 发 现 此 时 已 经 产生 了 一 个 新 的 进程 ， 笔 者 对 本 地 的 CoarseGrainedExecutorBackend 进 程 的 截图 如 图 7-7 所 示 。 











z & org. apache. spark executor. CoarseGrainedExecutorBackend (pid 1096) %8 


poe) sam | E 线程 | 总 抽样 器 | © Profiler| 


© org. apache. spark. executor. CoarseGrainedExecutorBackend (pid 1096) 
概述 





PID: 1096 

主机 : localhost 

主 类 : org apache. spark. executor. CoarseGrainedExecutorBackend 

#339: akka. tcp://sparkDriver@ali-79252n. hz. ali. com:58004/user/CoarseGrainedScheduler 0 ali-79252n hz. ali. com 


JVM: Java HotSpot (IM) 64-Bit Server VM (24.72-b04, mixed mode) 
Java: 版 本 1.7.0 .72， 世 应 商 Oracle Corporation 

Java Hews 目录 : D: \Java\jdkt.7.0_72\jre 

JW 标志 : > 














7-7 ”CoarseGrainedExecutorBackend 进 程 的 截图 








它 的 系统 属性 如 图 7-8 所 示 。 





pi driver. port-58004 

sun. arch data model=64 

sun. boot. class. path=D: \Java\jdkl 7.0_72\jre\lib\resources. jar;D: \Java\jdkl.7.0_72\jre\lib\rt. jar;D: \Java\jdk 
sun. boot. Library. path=): \Java\jdkl.7.0_72\jre\bin 

sun. cpu. endian=little 


sun. cpu. isalist=and64 


sun. desktop=windows 

sun. i0. unicode. encoding-UnicodeLittle 

sun. java. command=org. apache. spark. executor. CoarseGrainedExecutorBackend akka. tcp://sparkDriver@ali~79252n. hz. 
sun. java. launcher=SUN_STANDARD 





图 7-8 ”CoarseGrainedExecutorBackend 进 程 的 系统 属性 











我 们 看 到 系统 属性 sun.java.command 正 是 CommandUtils.buildProcessBuilder 构 建 的 ommand， 由 于 截图 无 法 完整 显示 ， 笔 者 给 出 文本 形式 的 属性 值 : sun.java.command= 
org.apache.spark.executor.CoarseGrainedExecutorBackend akka.tcp: /sparkDriver@ 主 机 名 : 58004/user/CoarseGrainedScheduler 0 主机 名 1 app-20150707144151-0000 
akka.tcp: /sparkWorker1@ 主 机 名 : 58037/user/Worker, 


现在 我 们 来 看 看 CoarseGrainedExecutorBackend 的 main 方 法 ， 见 代码 清单 7-35。 其 中 调用 的 run 方 法 ( 见 代码 清单 7-36) 的 处 理 过 程 如 下 : 


1) 给 Driver 发 送 RetrieveSparkProps 消 息 获取 Spark 属 





性 。 











2) 使 用 获取 的 Spark 属 性 创建 自身 需要 的 ActorSystem。 











3) 注册 CoarseGrainedExecutorBackend 到 ActorSystem 中 。 


4) 注册 WorkerWatcher 到 ActorSystem 中 。WorkerWatcher 用 于 Worker 向 Master 发 送 心跳 以 证 明 Worker 运 行 正常 。 





代码 清单 7-35 CoarseGrainedExecutorBackend 的 main 方 法 





def main (args: Array[String]) { 
args.length match { 
case x if x < 5 => 
System.err.println ( 
"Usage: CoarseGrainedExecutorBackend <driverUrl> <executorId> <hostname> " + 
"<cores> <appid> [<workerUrl>] ") 
System.exit (1) 
case 5 => 
run(args(0), args(1), args(2), args(3).toInt, args(4), None) 
case x if x>5= 
run (args (0), args(1), args(2), args(3).toInt, args(4), Some (args (5) ) ) 





Oza 
Bt Ab #9 CoarseGrainedSchedulerBackend x org.apache.spark.executor & F #9 CoarseGrained-SchedulerBackend. 


代码 清单 7-36 CoarseGrainedExecutorBackend 的 run 方 法 





private def run( 
driverUrl: String, 
executorlId: String, 
hostname: String, 


cores: Int, 

appId: String, 

workerUrl: Option[String]) { 

val executorConf = new SparkConf 

val port = executorConf.getInt ("spark.executor.port", 0) 
val (fetcher, _) = AkkaUtils.createActorSystem( 


"driverPropsFetcher", hostname, port, executorConf, new Security-Manager (executorConf) ) 


val driver = fetcher.actorSelection (driverUrl) 
val timeout = AkkaUtils.askTimeout (executorConf) 
val fut = Patterns.ask(driver, RetrieveSparkProps, timeout) 
val props = Await.result (fut, timeout) .asInstanceOf[Seq[ (String, String)]] ++ 
Seg[ (String, String) ] (("spark.app.id", appId) ) 
fetcher. shutdown () 
val driverConf = new SparkConf () .setAll (props) 
val (actorSystem, boundPort) = AkkaUtils.createActorSystem ( 
SparkEnv.executorActorSystemName, 
hostname, port, driverConf, w SecurityManager (driverConf) ) 
val sparkHostPort = hostname + ":" + boundPort 
actorSystem.actorOf ( 
Props (classOf [CoarseGrainedExecutorBackend] , 
driverUrl, executorId, sparkHostPort, cores, props, actorSystem), 








name = "Executor") 
workerUrl.foreach { url => 
actorSystem.actorOf (Props (classOf [WorkerWatcher], url), name = "WorkerWatcher") 


} 


actorSystem. awaitTermination () 








注册 CoarseGrainedExecutorBackend 会 触发 preStart 方 法 ， 其 实现 如 下 : 





override def preStart() { 
logInfo ("Connecting to driver: " + driverUrl) 
driver = context.actorSelection (driverUr1) 
driver ! RegisterExecutor (executorId, hostPort, cores) 
context.system.eventStream. subscribe (self, classOf[RemotingLifecycleEvent] ) 





preStart 方 法 主要 向 DriverActor 发 送 RegisterExecutor 消 息 ，DriverActor 接 到 Register-Executor 消 息 后 的 处 理 步骤 ( 见 代码 清和 











3) 创建 ExecutorData 并 且 注 册 到 executorDataMap 中 。 


























4) 调用 makeOffers 方 法 执行 任务 ， 将 会 在 7.2.5 节 详细 介绍 。 








代码 清单 7-37 ”DriverActor 接 到 RegisterExecutor 消 息 后 的 处 理 


7-37) 如 下 : 





7-38。 至此，Executor 终 于 





1) 先 向 CoarseGrainedExecutorBackend 发 送 RegisteredExecutor 消 息 ，CoarseGrained-ExecutorBackend 收 到 RegisteredExecutor 消 息 后 创建 Executor， 见 代码 清和 
出 现 了 ! 


2) 更 新 Executor 所 在 地 址 与 Executor 的 映射 关系 (addressToExecutorld) 、Driver 获 取 的 总 共 CPU 核 数 (totalCoreCount) 、 注 册 到 Driver 的 Executor 的 总 数 (totalRegisteredExecutors) 等 信 





case RegisterExecutor (executorId, hostPort, cores) => 
Utils.checkHostPort (hostPort, "Host port expected " + hostPort) 
if (executorDataMap.contains (executorId)) { 


sender ! RegisterExecutorFailed("Duplicate executor ID: " + executorId) 
} else { 

logInfo ("Registered executor: " + sender + " with ID " + executorId) 

sender ! RegisteredExecutor 

addressToExecutorId(sender.path.address) = executorId 


totalCoreCount.addAndGet (cores) 
totalRegisteredExecutors.addAndGet (1) 
val (host, _) = Utils.parseHostPort (hostPort) 
val data = new ExecutorData(sender, sender.path.address, host, cores, cores) 
CoarseGrainedSchedulerBackend.this.synchronized { 

executorDataMap.put (executorId, data) 

if (numPendingExecutors > 0) { 

numPendingExecutors -= 1 


logDebug(s"Decremented number of pending executors ($numPending-Executors left)") 


} 


} 
makeOffers () 





代码 清单 7-38 CoarseGrainedExecutorBackend 处 理 RegisteredExecutor 消 息 的 代码 





case RegisteredExecutor => 
logInfo ("Successfully registered with driver") 


val (hostname, _) = Utils.parseHostPort (hostPort) 
executor = new Executor (executorId, hostname, sparkProperties, cores, isLocal = false, 
actorSystem) 





注册 WorkerWatcher 的 时 候 会 触发 preStart 方 法 〈 见 代码 清单 7-39) ， 它 会 向 Worker 发 送 SendHeartbeat 消 息 初始 化 连接 。 





代码 清单 7-39 WorkerWatcher 的 prestart 方 法 


override def preStart() { 
context. system.eventStream. subscribe (self, classOf[RemotingLifecycleEvent]) 
logInfo(s"Connecting to worker $workerUr1") 
val worker = context.actorSelection (workerUrl) 
worker ! SendHeartbeat // need to send a message here to initiate connection 





Worker 收 到 SendHeartbeat 消 息 后 ， 会 向 Master 发 送 Heartbeat 消 息 ， 代 码 如 下 。 





Case SendHeartbeat => 
if (connected) { master ! Heartbeat (workerId) } 





Worker&ìžReconnectWorken ©. Worker#2iK2i/ReconnectWorkei## Sat 


根据 代码 清单 7-17 中 Master 收 到 Heartbeat 消 息 后 的 实现 。 如 果 Worker 的 id 与 Worker 的 映射 关系 (idToWorker) 中 找 不 到 匹配 的 Worker， 但 是 Worker 的 缓存 (workers) 中 却 存在 此 id， 那 么 向 











新 向 Master 注 册 ， 代 码 如 下 。 





case ReconnectWorker (masterUr1) => 
logInfo(s"Master with url $masterUrl requested this worker to reconnect.") 
registerWithMaster () 














7-9 所 示 。 


[ 





在 只 有 一 个 Worker 的 情况 下 ，AppClient 的 计算 资源 物理 分 配 过 程 如 





这 里 对 图 7-9 中 计算 资源 的 物理 分 配 过 程 进行 简短 介绍 : 














1) 调用 Master 的 launchExecutor 方 法 时 ， 向 Worker 发 送 LaunchExecutor 消 息 。 


N 


Worker 接 到 LaunchExecutor 消 息 后 ， 创 建 Executor 的 工作 目录 ， 创 建 Application 的 本 地 目录 ， 创 建 并 启动 ExecutorRunner， 最 后 向 Master 发 送 ExecutorSstateChanged 消 息 。 








3) ExecutorRunner 创 建 并 运行 线程 workerThread，workerThread 在 执行 过 程 中 调 














fetch-AndRunExecutor 完 成 对 CoarseGrainedExecutorBackend 进 程 进行 构造 。 


4) CoarseGrainedExecutorBackend 进 程 向 Driver 发 送 RetrieveSparkProps 消 息 。 


5) Driver 收 到 RetrieveSparkProps 消 息 后 向 CoarseGrainedExecutorBackend 进 程 发 送 Spark 属 性 ，CoarseGrainedExecutorBackend 进 程 最 后 创建 




















自身 需要 的 ActorSystem。 








6) CoarseGrainedExecutorBackend 进 程 向 刚刚 启动 的 ActorSystem 注 册 CoarseGrained-ExecutorBackend (实现 了 Actor 特 质 ) ， 所 以 触发 其 preStart 方 法 。CoarseGrainedExecutor-Backend 的 


preStart 方 法 向 DriverActor 发 送 RegisterExecutor 消 息 。 
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图 7-9 AppClient 的 计算 资源 物理 分 配 过 程 





7) DriverActor 接 到 RegisterExecutor 消 息 后 ， 先 向 CoarseGrainedExecutorBackend 发 送 RegisteredExecutor 消 息 ， 然 后 更 新 Executor 所 在 地 址 与 Executor 的 映射 关系 (addressTo- 


Executorld) 、Driver 获 取 的 总 共 CPU 核 数 (totalCoreCount) 、 注 册 到 Driver 的 Executor 的 总 数 (totalRegisteredExecutors) 等 信息 ， 最 后 创建 ExecutorData 并 且 注 册 到 executorDataMap 中 。 





8) CoarseGrainedExecutorBackend 进 程 收 到 RegisteredExecutor 消 息 后 创建 Executor。 


9) CoarseGrainedExecutorBackend 进 程 向 


刚刚 启动 的 ActorSystem 注 册 WorkerWatcher， 注 册 WorkerWatcher 的 时 候 会 触发 preStart 方 法 ，preStart 方 法 会 向 Worker 发 送 SendHeartbeat 消 息 初 
始 化 连接 。 





10) Worker 收 到 SendHeartbeat 消 息 后 会 向 


Master 发 送 Heartbeat 消 息 ，Master 收 到 Heartbeat 消 息 后 如 果 发 现 Worker 没 有 注册 过 ， 则 向 Worker 发 送 ReconnectWorker 消 息 ， 要 求 Worker 重 新 向 
Master 注 册 。 





7.2.5 local-cluster 模 式 的 任务 执行 














在 5.4.5 节 ， 我 们 知道 TaskSchedulerlImplI 的 submitTasks 方 法 最 后 会 调用 backend 的 reviveOffers 方 法 ， 见 代码 清单 5-40。 在 local-cluster 模 式 下 即 为 SparkDeploySchedulerBackend 的 父 类 
CoarseGrainedSchedulerBackend 的 reviveOffers 方 法 ， 它 的 实现 如 下 。 














override def reviveOffers() { 
driverActor ! ReviveOffers 


} 

















reviveOffers 方 法 用 于 向 DriverActor 发 送 ReviveOffers 消 息 。DriverActor 接 收 到 Revive-Offers 消 息 后 调用 makeOffers， 代 码 如 下 。 








case ReviveOffers => 
makeOffers () 


makeOffers 方 法 〈 见 代码 清单 7-40) 的 处 理 逻 辑 如 下 : 


1) 将 executorDataMap 中 的 ExecutorData 都 转换 为 WorkerOffer。 




















2) 调用 TaskSchedulerlImpI 的 resourceOffers 方 法 (在 5.4.5 节 已 经 详细 介绍 过 ) 给 当前 任务 分 配 Executor， 然 后 调用 launchTasks。 























代码 清单 7-40 CoarseGrainedSchedulerBackend 的 makeOffers 方 法 


def makeOffers() { 
launchTasks (scheduler. resourceOffers (executorDataMap.map { case (id, executorData) => 
new WorkerOffer (id, executorData.executorHost, executorData.freeCores) 
}.toSeq) ) 





launchTasks 方 法 〈 见 代码 清单 7-41) 的 处 理 步骤 如 下 : 
1) 序列 化 TaskDescription。 


2) 取出 TaskDescription 所 描述 任务 分 配 的 ExecutorData 信 息 ， 并 且 将 ExecutorData 描 述 的 空闲 CPU 核 数 减 去 任务 占用 的 核 数 。 





3) 向 Executor 所 在 的 CoarseGrainedExecutorBackend 进 程 中 的 CoarseGrainedExecutor-Backend 发 送 LaunchTask 消 息 。 





代码 清单 7-41 CoarseGrainedSchedulerBackend 的 launchTasks 方 法 





def launchTasks (tasks: Seq[Seq[TaskDescription]]) { 
for (task <- tasks.flatten) { 
val ser = SparkEnv.get.closureSerializer.newInstance () 
val serializedTask = ser.serialize (task) 
if (serializedTask.limit >= akkaFrameSize - AkkaUtils.reservedSizeBytes) { 
val taskSetId = scheduler.taskIdToTaskSetId(task.taskId) 
scheduler.activeTaskSets.get (taskSetId) .foreach { taskSet => 
try { 
var msg = "Serialized task %s:%d was %d bytes, which exceeds max allowed: " + 
"spark.akka.frameSize (%d bytes) - reserved (%d bytes). Consider increasing " + 
"spark.akka.frameSize or using broadcast variables for large values." 
msg = msg.format (task.taskId, task.index, serializedTask.limit, akkaFrameSize, 
AkkaUtils.reservedSizeBytes) 
taskSet. abort (msg) 
} catch { 
case e: Exception => logError ("Exception in error callback", e) 
} 
} 
} 
else { 
val executorData = executorDataMap (task.executorId) 
executorData.freeCores -= scheduler.CPUS PER TASK 
executorData.executorActor ! LaunchTask (new SerializableBuffer (serializedTask)) 

















CoarseGrainedExecutorBackend 收 到 LaunchTask 消 息 后 ， 反 序列 化 TaskDescription， 使 用 TaskDescription 的 taskld、name、serializedTask 调 用 Executor 的 方法 launchTask， 实 现 如 下 。 


























case LaunchTask (data) => 

if (executor == null) { 
logError ("Received LaunchTask command but executor was null") 
System.exit (1) 

} else { 
val ser = SparkEnv.get.closureSerializer.newInstance () 
val taskDesc = ser.deserialize[TaskDescription] (data.value) 
logInfo ("Got assigned task " + taskDesc.taskId) 
executor .launchTask (this, taskDesc.taskId, taskDesc.name, taskDesc.serializedTask) 


Executor 的 方法 launchTask 已 在 5.5 节 详细 描述 。 


现在 我 们 来 总 结 下 local-cluster 模 式 的 任务 执行 过 程 ， 笔 者 本 地 设置 的 partition 数 量 为 2， 会 另 起 两 个 CoarseGrainedExecutorBackend 进 程 ， 两 个 ShuffleMapTask 分 别 被 分 配 到 两 个 进程 中 执行 ， 其 
执行 过 程 如 图 7-10 所 示 。 























司 7-10 中 local-cluster 模 式 的 任务 执行 过 程 与 local 模 式 类 似 ， 区 别 是 local-cluster 模 式 的 每 个 Worker 会 启动 多 个 CoarseGrainedExecutorBackend 进 程 ，ExecutorBackend (此 模式 下 为 
CoarseGrainedExecutorBackend) 和 Executor 都 位 于 此 CoarseGrainedExecutorBackend 的 JVM 进 程 中 。local-cluster 模 式 的 任务 执行 过 程 可 以 参考 对 图 7-1 中 local 模 式 的 任务 执行 过 程 分 析 。 
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图 7-10 local-cluster 模 式 的 任务 执行 过 程 





7.3 Standalone 部 署 模式 
local 模 式 只 有 Driver 和 Executor， 且 在 同一 个 JVM 进 程 内 。local-cluster 模 式 的 Driver、Master、Weorker 也 都 位 于 同一 个 JVM 进 程 内 部 。 所 以 local 模 式 和 local-cluster 模 式 便 于 开发 、 测 试 ， 也 便于 源 
码 阅读 与 调试 ， 但 是 却 不 适合 在 生产 环境 使 











。 Standalone 部 署 模式 有 哪些 特点 呢 ? 





+ Driver 在 集群 之 外 ， 可 以 是 任意 的 客户 端 应 用 程序 。 


:Master 部 署 于 单独 的 进程 ， 甚 至 应 该 在 单独 的 机 器 节点 上 。Master 有 多 个 ， 但 同时 最 多 只 有 一 个 处 于 激活 状态 。 


"Worker 部 署 于 单独 的 进程 ， 也 推荐 在 单独 的 机 器 节点 上 部 署 。 


7.3.1 启动 Standalone 模 式 
我 们 以 Linux 环 境 下 启动 standalone 模 式 为 例 。 启 动 Sstandalone 模 式 需要 保证 一 定 的 顺序 ， 即 需要 先 启动 Master， 再 逐个 启动 Worker。Linux 环 境 启动 Master 的 命令 如 





图 7-11 所 示 。 











av218142118 ~/jnstall/spark-1.2.0-bin-hadoopl/sbin]$ sh start-master .sh 
starting org.apache.spark. deploy.master.Master, logging to /home/jiaan.gja/instal1/spark-1.2.0- 
-org. apache. spark. deploy. master .Master-1-v218142118. sqa. zmf. out 








图 7-11 Linux 环 境 启动 Master 的 命令 























jps 命 令 查看 Master 进 程 的 信息 ， 输 出 如 图 7-12 所 示 。 














Master 进 程 的 默认 端口 是 7077，webui 的 端口 是 8080。 可 以 
[jiaan. gja@v218142118 ~/install/spark-1.2.0-bin-hadoop1/sbin]$ jps -1mv 
25691 sun.tools.jps.jps -Imv -Dapplication. home=/opt/taobao/install/jdk-1.7.0_51 -Xms8m 

23137 org. apache. spark. deploy.master.Master --ip 127.0.0.1 --port 7077 --webui-port 8080 -xx:MaxPer 


fecycleEvents=true -Dcom. sun. management. jmxremote -Dcom. sun. management. jmxremote. port=10207 -Dcom.s 
nticate=false -Dcom. sun. management. jmxremote.ssl=false -Xms512m -xmx512m 





图 7-12 jps 命 令 查看 Master 进 程 的 信息 





图 7-13 所 示 。 














浏览 器 访问 http://10.218.142.118: 8080/， 可 以 看 到 其 web 界 面 如 














€e C [^ 10.218.142.118:8080 


Spak Spark Master at spark://127.0.0.1:7077 


URL: spark //127.0.0.1:7077 
Workers: 0 

Cores: 0 Total, 0 Used 

Memory: 00 B Tolal 0 0 B Used 
Applications: 0 Running. 0 Completed 
Drivers; 0 Running, 0 Completed 
Status: ALIVE 


Workers 


id Address 


Running Applications 


ID Name Cores Memory per Node Submitted Time User State Duration 


Completed Applications 


ID Name Cores Memory per Node Submitted Time State Duration 








7-13 ”Mastet 的 Web 界 面 











启动 完 Master， 就 可 以 启动 Worker 了 ， 启 动 Worker 时 需要 指定 Master 的 连接 地 址 。 在 命令 行 输入 : ./spark-class org.apache.spark.deploy.worker.Worker spark: //127.0.0.1: 7077， 启 动 过 程 
如 图 7-14 所 示 。 





SBE 218142118 ~/install/spark-1.2.0-bin-hadoop1/bin]$ ./spark-class org. apache. spark. deploy.worker.worker spa 


Spark assembly has been built with Hive, including Datanucleus jars on classpath 

sing Spark's default 1994j P profile: ob Eg eins sparky 100115 defaults. properties 

5/07/15 12:14:54 INFO worker: Registered signal handler or [TERM, HUP, INT] 

5/07/15 12:14:54 INFO secur ityManacer : Changing view acls to: 

5/07/15 12:14:54 INFO SecurityManager: Changing modify acls to: 
SecurityManager: SecurityManager: authentication disabled; ui acis disabled; users with view p 
with modify permissions: set aoe ) 
slf4jLogger: slf4jLogger started 
Remoting: Starting remoting 
Remoting: Remoting started; listening on addresses PEKE ECR. / [S nS plese he 
Remoting: SEE now listens on addresses: [akka. tcp://sparkworker@localhost : 53728] 
Utils: Successfully started service ‘sparkworker’ on port 53728. 


worker: Starting Spark worker localhost:53728 with 2 cores, 2.9 GB RAM 


worker: Spark home: /home/ 训 入 /install/spark-1.2.0-bin-hadoopI 
Utils: Successfully started service “WorkerUI”on port 8081. 


12:14:55 workerwebUL: Started workerwebUI at http://localhost: 8081 
5 12:14:55 worker: Polit i Biba master spark: //127.0.0.1:7077... 


12:14:56 worker: Successfully registered with master spark: //127.0.0.1:7077 





图 7-14 启动 Worker 











从 启动 信息 中 可 以 看 出 ，Worker 创 建 并 启动 了 自己 的 ActorSystem: akka.tcp: //sparkWorker@localhost: 53728，WorkerUI 的 端口 为 8081， 最 后 向 Master 注 册 Worker 等 信息 。 








用 jps 命 令 查看 Worker 进 程 的 信息 ， 看 到 spark-class 默 认 会 在 启动 Worker 进 程 时 ， 增 加 一 些 参 数 : -XX: MaxPermSize=128m-Dspark.akka.logLifecycleEvents=true-Xms512m-Xmx512m, 





如 果 有 很 多 Worker， 一 台 一 台 启 动 会 很 麻烦 ， 可 以 使 用 $SPARK_HOME/sbin/start-slaves.sh 来 启动 多 个 Worker。start-slaves.sh 的 部 分 脚本 内 容 如 下 。 








# Launch the slaves 
E ci Wi "SSPARK WORKER INSTANCES" = "" ]; then 
exec "Ssbin/slaves.sh" cd "$SPARK_HOME" \; "Ssbin/start-slave.sh" 1 "spark: //$SPARK_MASTER_IP:$SPARK_MASTER PORT" 
else 
f [ "$SPARK WORKER WEBUI PORT" = "" ]; then 
SPARK WORKER WEBUI_PORT=8081 
for ((i=0; i<$SPARK_WORKER INSTANCES; i++)); do 
"Ssbin/slaves.sh" cd "SSPARK_HOME" \; "Ssbin/start-slave.sh" $(( $i +1 )) “spark://$SPARK MASTER _IP:$SPARK MASTER PORT" --webui-port $(( $SPARK_WORKER WEBUI PORT + $i 


done 
fi 





7.3.2 ”启动 Master 分 析 








Scala 语 法 允许 在 object 中 定义 def main (argStrings: Array[String]) 函数 作为 应 用 的 启动 入 口 ， 可 以 认为 与 Java 中 main 方 法 一 样 。 在 Master.scala 文 件 中 定义 了 object Master， 见 代码 清单 7-42。 
main 函 数 完成 的 内 容 如 下 : 























1) 创建 SparkConf。 


2) Master 参 数 解析 。 
3) 创建 、 启 动 ActorSystem， 并 向 ActorSystem 注 册 Master。 


代码 清单 7-42 Master 的 main 方 法 





private[spark] object Master extends Logging { 
val systemName = "sparkMaster" 
private val actorName = "Master" 
val sparkUrlRegex = "spark://([*:]+):([0-9]+)".r 
def main(argStrings: Array[String]) { 
SignalLogger. register (log) 
val conf = new SparkConf 
val args = new MasterArguments (argStrings, conf) 
val (actorSystem, _, _) = 


actorSystem. awaitTermination () 


startSystemAndActor (args.host, args.port, args.webUiPort, conf) 





1.Master 参 数 解析 














MasterArguments 








代码 清单 7-43 MasterArguments 解 析 Master 人 参数 


于 解析 系统 环境 变量 和 启动 Master 时 指定 的 命令 行 参数 ， 见 代码 清单 7-43。 





private[spark] class MasterArguments (args: Array[String], conf: SparkConf) 


var host = Utils.localHostName () 

var port = 7077 

var webUiPort = 8080 

var propertiesFile: String = null 

if (System.getenv ("SPARK MASTER HOST") != null) { 
host = System.getenv ("SPARK_MASTER_HOST") 

} 

if (System.getenv ("SPARK MASTER PORT") != null) { 
port = System.getenv ("SPARK MASTER PORT") .toInt 


} 

if (System.getenv ("SPARK MASTER WEBUI_PORT") != null) { 
webUiPort = System. getenv ("SPARK MASTER WEBUI_PORT") .toInt 

} 

parse (args.toList) 


{ 


propertiesFile = Utils.loadDefaultSparkProperties (conf, propertiesFile) 


if (conf.contains ("spark.master.ui.port")) { 
webUiPort = conf.get ("spark.master.ui.port") .toInt 
} 





MasterArguments 中 解析 的 参数 如 表 7-1 所 示 。 


ne ex 


表 7-1 


a 


MasterArguments 中 解析 的 参数 


认 值 系统 环境 变量 命令 行 参数 











host Master 的 监听 地 址 | 机 器 名 SPARK MASTER HOST --host 或 者 -h 
port Master 的 监听 端口 ”| 7077 SPARK MASTER PORT --port 或 者 -p 
webUiPort WebUI 的 监听 端口 “| 8080 SPARK MASTER WEBUI PORT | --webui-port 
propertiesFile Spark 属性 文件 --properties-file 


Oe 


系统 环境 变量 SPARK_MASTER_WEBUI PORT 可 以 被 属性 spark.mastet.ui.port 所 履 盖 。 














解析 命令 行 参数 ， 是 








表 7- 


参 数 名 
--ip RA -i 
--host 或 者 -h 
--port 或 者 -p 
--webui-port 
--properties-file 


--help 


代码 清单 7-44 ”MasterArguments.parse 的 实现 


其 parse 函 数 ( 见 代码 清单 7-44) 实现 的 ， 命 令 行 参数 的 值 会 覆盖 系统 环境 变量 的 值 。 解 析 的 命令 行 参数 如 表 7-2 所 示 。 


2 parse 函 数 解析 的 命令 行 参数 


参数 含义 
指定 host name， 将 来 会 停止 使 用 ， 推 荐 使 用 --host 或 者 -h 
指定 host name 
指定 端口 
指定 WebUI 的 端口 
Spark 系统 属性 文件 
帮助 





def parse(args: List[String]): 
ease ("ssi | Tiny cos 


Unit 
value :: 


args match { 
tail => 


Utils.checkHost (value, "ip no longer supported, please use hostname " + value) 


host = value 

parse (tail) 
case ("--host" | "-h") :: 
Utils.checkHost (value, 
host = value 
parse (tail) 

("--port" | "=p") :: 
port = value 
parse (tail) 

"—-webui-port™ :: 
webUiPort = value 
parse (tail) 
case ("--properties-file") :: 


value :: tail => 
"Please use hostname " + value) 


case IntParam(value) :: tail => 


case IntParam(value) :: tail => 


value :: tail => 


propertiesFile = value 
parse (tail) 

case ("--help") :: tail => 
printUsageAndExit (0) 

case Nil => {} 

case => 
printUsageAndFxit (1) 





系统 变量 中 如 果 指 定 了 spark.master.ui.port， 会 覆盖 环境 变量 SPARK_MASTER_WEBUI_PORT 和 命令 行 参数 --webui-port 指 定 的 值 。 


2. 创 建 、 启 动 ActorSystem， 并 向 ActorSystem 注 册 Master 


Master 的 startSystemAndActor 方 法 已 在 7.2.1 节 详细 介绍 ， 不 再 袭 述 。 


7.3.3 ”启动 Worker 分 析 





Worker 也 通过 main 函 数 来 启动 ， 见 代码 清单 7-45。main 函 数 完 成 的 内 容 如 下 : 





1) 创建 SparkConf。 
2) Worker 人 参数 解析 。 
3) 创建 、 启 动 ActorSystem， 并 向 ActorSystem 注 册 Worker。 


代码 清单 7-45 ”Worker 的 main 方 法 





private[spark] object Worker extends Logging { 
def main(argStrings: Array[String]) { 
SignalLogger. register (log) 
val conf = new SparkConf 
val args = new WorkerArguments (argStrings, conf) 


val (actorSystem, _) = startSystemAndActor(args.host, args.port, args.webUiPort, args.cores, 


args.memory, args.masters, args.workDir) 
actorSystem. awaitTermination () 





1.Worker 参 数 解析 








WorkerArguments 用 于 解析 系统 环境 变量 和 启动 Worker 时 指定 的 命令 行 参数 ， 其 实现 方式 与 MasterArguments 大 同 小 异 ， 读 者 可 以 自己 阅读 其 源码 。WorkerArguments 相 比 于 
MasterArguments, 增加 了 内 核 数量 (cores) 、 内 存 大 小 (memory) 、Master 的 监听 地 址 列表 (masters) 、 工 作 目 录 (workDir) 的 解析 。WorkerArguments 解 析 的 参数 如 表 7-3 所 示 。 

















表 7-3 WorkerArguments 解 析 的 参数 
属 性 含 xX x 认 值 系统 环境 变量 命令 行 参数 
ia Worker AB “ont BH -a 
= = 
cores 系统 内 核 数 SPARK WORKER CORES --cores 或 者 -c 
memory 系统 最 大 内 存 减 1 GB | SPARK WORKER MEMORY --memory 或 者 -m 


Oza 


memory 默 认为 操作 系统 最 大 内 存 减 去 1 GB， 这 1 GB 是 留 给 操作 系统 使 用 的 。 


WorkerArguments 的 parse 函 数 与 MasterArguments 中 的 parse 函 数 的 实现 类 似 ， 读 者 可 自行 阅读 其 源码 。WorkerArguments 的 parse 函 数 要 求 必须 在 启动 Worker 时 指定 spark: // 的 参数 作为 


命令 行 参数 的 值 会 覆盖 系统 环境 变量 的 值 ， 解 析 的 命令 行 参数 如 表 7-4 所 示 。 


master 的 url。 





表 7-4 WorkerArguments 的 patse 函 数 解析 的 命令 行 参 数 


SH 名 
--ip 或 者 -i 
--host 或 者 -h 


参数 含义 
host name， 将 来 会 停止 使 用 ， 推 荐 使 用 --host 或 者 -h 


host name 


ms 





--port 或 者 -p 
--webui-port 


--properties-file 


指定 WebUI 的 端口 
Spark 系统 属性 文件 





参 数 名 


参数 含义 





--cores 或 者 -c 指定 内 核 数 
--memory 或 者 -m 指定 内 存 大 小 
--work-dir 或 者 -d 指定 工作 目录 


mvo, 





--help 帮助 





Oza 


系统 变量 中 如 果 指定 了 spatk.wotker.ui.bort， 会 覆盖 环境 变量 SPARK_ WORKER_WEBUI PORT 和 命令 行 参数 --webui-port 指 定 的 值 。 


2. 创 建 、 启 动 ActorSystem， 并 向 ActorSystem 注 册 Worker 


Worker 的 startSystemAndActor 方 法 已 在 7.2.1 节 详细 介绍 ， 不 再 歼 述 。 


7.3.4 启动 Driver Application 分 析 


下 。 























我 们 首先 自己 动手 在 Spark 项 目 中 增加 一 个 小 应 用 程序 MasterTest， 其 实现 非常 简单 ， 我 们 将 使 用 它 来 扮演 Driver application 的 角色 ， 连 接地 址 为 spark: //10.218.142.118: 7077 的 Master， 代 码 如 

















object MasterTest { 
def main(args: Array[String]) { 
val sparkConf = new SparkConf().setAppName ("Master Test") 
.setMaster ("spark://10.218.142.118:7077"); 
val sc = new SparkContext (sparkConf) 





由 于 我 们 设置 master 为 spark: //10.218.142.118: 7077， 使 它 匹配 spark: // (.*) 模式 ， 见 代码 清单 7-46。 








代码 清单 7-46 ”SparkContext 匹 配 spark: // (.*) 模式 的 代码 








case SPARK_REGEX(sparkUrl) => 
val scheduler = new TaskSchedulerImpl (sc) 
val masterUrls = sparkUrl.split(",").map("spark://" + _) 
val backend = new SparkDeploySchedulerBackend (scheduler, sc, masterUrls) 
scheduler. initialize (backend) 
(backend, scheduler) 





有 关 SparkDeploySchedulerBackend 的 内 容 ， 已 在 7.2 节 详细 讲解 ， 此 处 不 再 敖 述 。 











我 们 以 2 个 Worker、1 个 Master、1 个 Driver application 的 情况 ， 展 示 整 个 Sttandalone 部 署 模 式 的 启动 过 程 ， 如 图 7-15 所 示 。 











driver application 
® 注册 ClientActor 


actor:ClientActor 
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图 7-15 ”Standalone 模 式 的 启动 过 程 








区 











7-15 中 展示 的 Standalone 模 式 的 启动 过 程 与 local-cluster 模 式 的 启动 过 程 十 分 相似 ， 读 者 可 以 参考 图 7-2 中 对 local-cluster 模 式 的 启动 过 程 的 介绍 。 不 过 两 种 模式 的 启动 过 程 依然 有 以 下 区 别 : 


集群 是 真正 的 分 布 式 部 署 ， 所 有 Master 和 Worker 都 位 于 独立 的 JVM 进 程 甚至 是 不 同 的 机 器 节点 上 ; 

















= 


2) standalone 模 式 下 可 以 存在 多 个 Master， 这 些 Master 之 间 通 过 持久 化 引 警 和 领导 选举 机 制 解决 生成 环境 下 Master 的 单 点 问题 ， 使 得 Master 在 异常 退出 后 ， 能 够 重新 选举 激活 状态 的 Master， 并 从 
故障 中 恢复 集群 。 














以 1 个 Worker、1 个 Master、1 个 Driver application 的 情况 ， 展 示 整 个 Standalone 部 署 模式 的 资源 调度 ， 如 图 7-16 所 示 。 








图 





7-16 中 展示 的 Standalone 模 式 的 计算 资源 物理 分 配 过 程 与 local-cluster 模 式 的 计算 资源 物理 分 配 过 程 十 分 相似 ， 读 者 可 以 参考 
模式 的 计算 资源 物理 分 配 过 程 依然 有 以 下 区 别 : 





图 


辐 7-9 中 对 local-cluster 模 式 的 计算 资源 物理 分 配 过 程 的 介绍 。 不 过 两 种 
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集群 是 真正 的 分 布 式 部 署 ， 所 有 Master 和 Worker 都 位 于 独立 的 JVM 进 程 甚至 是 不 同 的 机 器 节点 上 ; 


2) standalone 模 式 下 可 以 存在 多 个 Master， 这 些 Master 之 间 通 过 持久 化 引 警 和 领导 选举 机 制 解决 生成 环境 下 Master 的 单 点 问题 ， 使 得 Master 在 异常 退出 后 ， 能 够 重新 选举 激活 状态 的 Master， 并 从 
故障 中 恢复 集群 。 
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图 7-16 








Standalone 模 式 的 计算 资源 物理 分 配 过 程 
7.3.5 ”Standalone 模 式 的 任务 执行 


以 2 个 Worker、1 个 Master、1 个 Driver application 的 情况 ， 展 示 整 个 Standalone 部 署 模 式 的 任务 执行 ， 如 图 7-17 所 示 。 
73.6 ”资源 回收 











除了 流 式 计算 ， 大 多 数 情况 下 的 任务 在 运行 一 段 时 间 之 后 都 会 完成 ， 那 么 Application 占 














的 资源 应 该 被 回收 。 那 么 Master 和 Executor 是 如 何 感知 到 Application 的 退出 ? 
Spark 中 有 两 种 处 理 方式 : 一 种 是 离别 之 前 先 打 声 招呼 ， 一 种 是 不 辞 而 别 。 
1. 离 别 之 前 先 打 声 招呼 


这 种 方式 很 好 理解 ，SparkContext 也 提供 了 stop 方 法 ( 见 代码 清单 7-47) 用 





于 告别 ， 告 别 就 需要 停止 各 种 服务 和 回收 资源 。 
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7-17 Standalone 模 式 的 任务 执行 过 程 








代码 清单 7-47 SparkContext 的 stop 方 法 





def stop() { 
SparkContext .SPARK_CONTEXT_CONSTRUCTOR_LOCK.synchronized { 

if (!stopped) { 
stopped = true 
postApplicationEnd () 
ui.foreach (_.stop()) 
env.metricsSystem. report () 
metadataCleaner.cancel () 
env.actorSystem. stop (heartbeatReceiver) 
cleaner. foreach (_.stop()) 
dagScheduler. stop () 
dagScheduler = null 
taskScheduler = null 
env. stop () 
SparkEnv.set (null) 
listenerBus. stop () 
eventLogger. foreach (_.stop()) 
logInfo ("Successfully stopped SparkContext") 
SparkContext.clearActiveContext () 

} else { 
logInfo ("SparkContext already stopped") 

} 

} 
} 











我 们 主要 关心 计算 资源 的 回收 ， 所 以 看 看 DagScheduler 的 stop 方 法 ， 其 代码 如 下 。 





def stop() { 
logInfo ("Stopping DAGScheduler") 
dagSchedulerActorSupervisor ! PoisonPill 
taskScheduler.stop () 

} 





TaskSchedulerImpl 的 stop 方 法 的 实现 如 下 。 





override def stop() { 
if (backend != null) { 
backend. stop () 
} 
if (taskResultGetter != null) { 
taskResultGetter.stop () 


starvationTimer.cancel () 


} 














CoarseGrainedSchedulerBackend 的 stop 方 法 中 调用 了 stopExecutors 方 法 ， 实 现 如 下 。 














def stopExecutors() { 


try { 
if (driverActor != null) { 
val future = driverActor.ask (StopExecutors) (timeout) 
// 省 略 部 分 代码 
} 
override def stop() { 
stopExecutors () 


// 省 略 部 分 代码 





stopExecutors 方 法 向 DriverActor 发 送 了 StopExecutors 消 息 ，DriverActor 收 到 StopExecutors 消 息 后 的 处 理 逻 辑 如 下 。 


case StopExecutors => 
logInfo ("Asking each executor to shut down") 
for ((_, executorData) <- executorDataMap) { 
executorData.executorActor ! StopExecutor 
} 


sender ! true 





上 面 的 代码 遍历 executorDataMap 中 的 ExecutorData， 向 每 个 CoarseGrainedExecutor-Backend 进 程 发 送 StopExecutor 消 息 。CoarseGrainedExecutorBackend 进 程 收 到 StopExecutor 消 息 后 的 资 
源 回收 处 理 代码 如 下 。 











case StopExecutor => 
logInfo ("Driver commanded a shutdown") 
executor. stop () 
context. stop (self) 
context. system. shutdown () 





处 理 StopExecutor 消 息 时 调用 了 Executor 的 stop 方 法 关闭 线程 、 停 止 SparkEnv 等 ， 代 码 实现 如 下 。 





def stop() { 
env.metricsSystem. report () 
env.actorSystem. stop (executorActor) 
isStopped = true 
threadPool . shutdown () 
if (!isLocal) { 
env. stop () 


} 





2. 不 辞 而 别 
哦 ， 不 ! 上 面 的 分 析 发 现 Application 只 记得 跟 Executor 打 声 招呼 ， 却 忘记 了 Master。 这 该 怎么 办 ? 
Akka 的 通信 机 制 保证 当 相互 通信 的 任意 一 方 异常 退出 ， 另 一 方 都 会 收 到 Disassociated-Event。Master 正 是 在 处 理 DisassociatedEvent 消 息 时 移 除 已 经 停止 的 Driver Application， 见 代码 清单 7-48。 


代码 清单 7-48 Master 处 理 DisassociatedEvent 消 息 的 代码 





case DisassociatedEvent(_, address, ) => { 
// The disconnected Client could've been either a worker or an app; remove whichever it was 
logInfo(s"Saddress got disassociated, removing it.") 
addressToWorker.get (address) . foreach (removeWorker) 
addressToApp.get (address) . foreach (finishApplication) 
if (state == RecoveryState.RECOVERING && canCompleteRecovery) { completeRecovery() } 


























如 果 编 写 任 务 时 忘记 了 调用 SparkContext 的 stop 方 法 ，Executor 的 资源 虽然 不 会 被 主动 回收 ， 但 由 于 CoarseGrainedExecutorBackend 也 会 收 到 DisassociatedEvent 消 息 ， 直 接 退 出 
CoarseGrainedExecutorBackend 进 程 ， 代 码 如 下 。 





























case x: DisassociatedEvent => 
logError(s"Driver $x disassociated! Shutting down.") 
System. exit (1) 





7A 容错 机 制 


在 分 布 式 系统 中 ， 由 于 机 器 数量 众多 ， 所 以 机 器 发 生 故 障 的 概率 很 高 ， 在 设计 任何 分 布 式 系统 时 都 应 考虑 容错 。 本 节 主 要 针对 Standalone 部 署 模 式 的 容错 能 力 进行 分 析 。 





7.4.1 ”Executor 异 常 退出 


如 果 Executor 异 常 退 出 ， 那 么 势必 导致 在 此 Executor 上 执行 的 任务 无 法 运行 。 曾 经 在 介绍 ExecutorRunner 启 动 CoarseGrainedExecutorBackend 进 程 的 代码 清单 7-33 中 说 过 ， 一 旦 收 到 退出 状态 
(EXITED) ， 则 会 向 Worker 发 送 ExecutorStateChanged 消 息 。Worker 收 到 ExecutorStateChanged 消 息 后 向 Master 转 发 ExecutorStateChanged 消 息 ， 代 码 如 下 。 











case ExecutorStateChanged(appId, execId, state, message, exitStatus) => 
master ! ExecutorStateChanged(appId, execId, state, message, exitStatus) 





Master 收 到 ExecutorStateChanged 消 息 后 对 退出 状态 的 处 理 〈 见 代码 清单 7-49) 步骤 如 下 : 
1) 找到 占有 Executor 的 Application 的 Applicationlnfo， 以 及 Executor 对 应 的 Executorlnfo。 


2) 将 Executorlnfo 的 状态 改 为 EXITED。 





3) EXITED 也 属于 Executor 完 成 状态 ， 所 以 会 将 Executorlnfo 从 ApplicationInfo 和 Workerlnfo 中 移 除 。 














4) 由 于 Executor 是 非 正常 退出 ， 所 以 重新 调用 schedule 给 Application 进 行 资源 调度 。 

















代码 清单 7-49 Master 处 理 ExecutorstateChanged 的 代码 





case ExecutorStateChanged(appId, execId, state, message, exitStatus) => { 
val execOption = idToApp.get (appId) .flatMap(app => app.executors.get (execId) ) 
execOption match { 
case Some(exec) => { 
val appInfo = idToApp (appId) 


exec.state = state 
if (state == ExecutorState.RUNNING) { appInfo.resetRetryCount() } 
exec.application.driver ! ExecutorUpdated(execId, state, message, exitStatus) 
if (ExecutorState.isFinished(state)) { 
// Remove this executor from the worker and app 
logInfo(s"Removing executor ${exec.fullId} because it is $state") 
appInfo. removeExecutor (exec) 
exec.worker. removeExecutor (exec) 
val normalExit = exitStatus == Some (0) 
if (!normalExit) { 
if (appInfo.incrementRetryCount () < ApplicationState.MAX NUM RETRY) { 
schedule () 
} else { 
val execs = appInfo.executors.values 
if (!execs.exists(_.state == ExecutorState.RUNNING)) { 
logError(s"Application ${appInfo.desc.name} with ID ${appInfo.id} failed " + 
s"S{appInfo.retryCount} times; removing it") 
removeApplication(appInfo, ApplicationState.FAILED) 


} 
} 
case None => 

logWarning(s"Got status update for unknown executor $appId/$execId") 
} 








Executor 异 常 退出 的 容错 处 理 可 以 用 图 7-18 表 示 。 
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图 7-18 ”Executor 异 常 退 出 的 容错 处 理 


Executor | 





第 @ 步 之 后 CoarseGrainedExecutorBackend 将 向 Driver 注 册 Executor， 注 册 过 程 已 在 前 面 讲 过 。 


7.4.2 ”Worker 异 常 退出 


当 Worker 进 程 退出 时 ， 会 发 生 什 么 呢 ? 还 记得 代码 清单 7-33 中 的 shutdownHook 线 程 吗 ” 它 将 在 Worker 进 程 退出 前 调用 killProcess 方 法 〈 见 代码 清单 7-50) 主动 杀 死 Coarse- 
GrainedExecutorBackend 进 程 ， 然 后 收 到 进程 返回 的 退出 状态 (KILLED) 后 向 Worker 发 送 ExecutorStateChanged 消 息 。 由 于 Worker 退 出 了 ， 所 以 不 会 有 Heartbeat 消 息 发 送 给 Master， 所 以 无 法 更 新 
Master 最 后 一 次 接收 到 心跳 的 时 间 戳 (lastHeartbeat) 。 根 据 timeOut-DeadWorkers ( 见 代码 清单 7-5) 的 实现 ，Master 会 调用 removeWorker 方 法 ( 见 代码 清单 7-6) 删除 长 期 失 联 的 Worker 的 
Workerlnfo 人 信息， 并 将 此 Worker 的 所 有 Executor 以 LOST 状 态 同步 更 新 到 它们 服务 的 Driver Application。 最 后 Master 还 会 为 Workerlnfo 所 服务 的 Driver Application 重 新 调度 ， 分 配 到 其 他 Worker 上 。 
整个 过 程 可 以 用 图 7-19 表 示 。 


























代码 清单 7-50 ”ExecutorRunner 的 killProcess 方 法 





private def killProcess (message: Option[String]) { 
var exitCode: Option[Int] = None 
if (process != null) { 
if (stdoutAppender != null) { 
stdoutAppender. stop () 
} 
if (stderrAppender != null) { 
stderrAppender . stop () 
} 
process.destroy () 
exitCode = Some (process.waitFor () ) 


worker ! ExecutorStateChanged(appId, execId, state, message, exitCode) 
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图 7-19 Worker 异 常 退 出 的 容错 处 理 


7.4.3 ”Master 异 常 退 出 


假如 我 们 的 Standlone 部 署 集群 只 有 一 个 Master， 当 Master 退 出 时 会 发 生 什 么 ? 


1) 当 Executor 上 的 任务 执行 完毕 ， 需 要 对 资源 回收 。 按 照 7.3.6 节 的 内 容 ， 如 果 主 动 调用 SparkContext 的 top 方 法 ，Driver Application 最 终 会 向 给 自己 服务 的 Executor 发 送 StopExecutor 消 息 对 资源 
回收 ，Master 虽 然 跑 路 了 ， 但 是 Driver Application 依 然 持 有 这 些 Executor， 所 以 没有 影响 。 如 果 不 辞 而 别 ， 那 么 Master 将 收 不 到 DisassociatedEvent 消 息 ， 但 是 CoarseGrainedExecutorBackend 仍 然 可 
以 收 到 DisassociatedEvent 消 息 后 退出 进程 。 看 来 Master 退 出 ， 如 果 Worker、Executor 正 常 运行 ， 则 对 于 资源 回收 没有 影响 。 




















2) 此 时 如 果 再 发 生 Executor 异 常 退出 问题 ，Worker 无 法 通过 ExecutorStateChanged 消 息 促使 Master 重 新 给 Driver Application 调 度 运 行 Executor，Driver Application 只 能 眼 巴巴 看 着 自己 提交 的 任 
务 无 法 执行 。 而 Executor 占 用 的 资源 也 得 不 到 回收 。 

















3) 此 时 如 果 又 发 生 Worker 异 常 退出 问题 ， 那 么 Worker 和 Executor 都 将 停止 服务 ， 由 于 无 法 通知 Master 重 新 给 Driver Application 调 度 到 其 他 Worker 上 ，Driver Application 提 交 的 任务 也 将 无 法 执 
行 。Worker 虽 然 kill 掉 了 Executor， 但 是 Worker 的 资源 将 无 法 被 其 他 Driver Application 使 用 。 





























4) 有 新 的 Driver 需 要 提交 任务 则 无 法 成 功 。 








基于 以 上 分 析 ， 发 现 Standlone 部 署 集群 只 有 一 个 Master 是 万 万 不 可 以 的 。 这 也 被 称 为 单 点 故障 问题 。 解 决 此 问题 的 常用 方式 就 是 采用 Master/Slaves 架 构 ， 即 有 多 个 Master， 但 同时 只 有 一 个 Master 
负责 整个 集群 的 调度 、 资 源 管理 工作 。 








在 代码 清单 7-4 中 ， 我 们 曾经 提 到 了 两 个 与 Master/Slaves 架 构 有 关 的 组 件 : 故障 恢复 的 持久 化 引擎 (persistenceEngine) 和 领导 选举 代理 (leaderElectionAgent) 。 
Spark 目 前 提供 的 故障 恢复 的 持久 化 引 警 有 如 下 几 种 : 

© ZooKeeperPersistenceEngine: 基于 ZooKeeper 实 现 的 持久 化 引擎 ; 

+ FileSystemPersistenceEngine: 基于 文件 系统 的 持久 化 引擎 ; 


“ BlackHolePetsistenceEngine: 默认 的 持久 化 引擎 ， 实 际 上 并 不 提供 故障 恢复 的 持久 化 能 力 。 





领导 选举 机 制 (Leader Election) 可 以 保证 集群 虽然 存在 多 个 Master， 但 是 只 有 一 个 Master 处 于 激活 (Active) 状态 ， 其 他 的 Master 处 于 支持 (Standby) 状态 。 当 Active 状 态 的 Master 出 现 故障 
时 ， 会 选举 出 一 个 standby 状 态 的 Master 作 为 新 的 Active 状 态 的 Master。 由 于 整个 集群 的 Worker、Driver 和 Application 的 信息 都 已 经 持久 化 到 文件 系统 ， 因 此 切换 时 只 会 影响 新 任务 的 提交 ， 对 于 正在 运 
行 中 的 任务 没有 任何 影响 。Spark 目 前 提供 的 领导 选举 代理 有 两 种 : 











“ ZooKeeperLeaderElectionAgent: 对 ZooKeeper 提 供 的 选举 机 制 的 代理 ; 
- MonarchyLeaderAgent: 默认 的 选举 机 制 代理 。 


默认 情况 下 ，Spark 不 提供 故障 恢复 ， 代 码 如 下 。 





val RECOVERY DIR = conf.get ("spark.deploy.recoveryDirectory", "") 
val RECOVERY MODE = conf.get ("spark.deploy.recoveryMode", "NONE") 





当 没 有 设置 spark.deploy.recoveryDirectory 和 spark.deploy.recoveryMode 时 ，RECOVERY_MODE 等 于 NONE， 此 时 匹配 的 持久 化 引擎 是 BlackHolePersistenceEngine。BlackHole- 
PersistenceEngine 虽 然 继 承 了 PersistenceEngine 的 特质 ， 但 是 实现 方法 都 是 空 方法 。 








private[spark] class BlackHolePersistenceEngine extends PersistenceEngine { 
override def addApplication(app: ApplicationInfo) {} 
override def removeApplication(app: ApplicationInfo) {} 


override def addWorker (worker: WorkerInfo) {} 
override def removeWorker (worker: WorkerInfo) {} 
override def addDriver (driver: DriverInfo) {} 
override def removeDriver (driver: DriverInfo) {} 
override def readPersistedData() = (Nil, Nil, Nil) 








这 说 明 如 果 不 设置 spark.deploy.recoveryDirectory 和 spark.deploy.recoveryYMode， 选 举 切 换 之 后 新 的 Master 会 丢失 集群 之 前 的 所 有 信息 。 


1.FileSystemPersistenceEngine 搭 配 MonarchyLeaderAgent 实 现 故障 恢复 

















如 果 想 用 Spark 本 身 实现 选举 和 故障 恢复 ， 可 以 设置 spark.deploy.recoveryMode 为 FiLESYSTEM。 此 时 匹配 的 持久 化 引擎 是 FileSystemPersistenceEngine。 由 于 RECOVERY_DIR 作 为 
FileSystemPersistenceEngine 的 构造 参数 传 入 ， 而 且 FilesystemPersistenceEngine 将 会 把 集群 信息 存 入 RECOVERY_DIR 指 定 的 目录 ， 见 代码 清单 7-51， 所 以 必须 设置 spark.deploy.recoveryDirectory 指 
要 的 方法 是 serializelntoFile 和 deserializeFromFile，serializelntoFile 可 以 将 任何 AnyRef (如 Applicationlnfo、Driverlnfo、Workerlnfo) 序列 化 写 入 文 
件 ，deserializeFromFile 则 可 以 将 FilelnputStream 反 序列 化 为 任何 对 象 (如 Applicationlnfo、Driverlnfo 和 Workerlnfo) 。 














定 目录 。FileSystempPersistenceEngine 最 


代码 清单 7-51 FileSystemPersistenceEngine 的 实现 





private[spark] class FileSystemPersistenceEngine ( 
val dir: String, 
val serialization: Serialization) 

extends PersistenceEngine with Logging { 

new File (dir) .mkdir() 

override def addApplication(app: ApplicationInfo) { 


val appFile = new File(dir + File.separator + 
serializeIntoFile(appFile, app) 


app_" + app.id) 


} 

override def removeApplication(app: ApplicationInfo) { 
new File(dir + File.separator + "app_" + app.id) .delete() 

} 

override def addDriver (driver: DriverInfo) { 
val driverFile = new File(dir + File.separator + "driver_" + driver.id) 
serializeIntoFile(driverFile, driver) 

} 

override def removeDriver (driver: DriverInfo) { 
new File(dir + File.separator + "driver_" + driver.id) .delete() 

} 

override def addWorker (worker: WorkerInfo) { 
val workerFile = new File(dir + File.separator + "worker " + worker.id) 
serializeIntoFile (workerFile, worker) 

} 

override def removeWorker (worker: WorkerInfo) { 
new File(dir + File.separator + "worker_" + worker.id) .delete() 

} 

override def readPersistedData(): (Seq[ApplicationInfo], Seq[DriverInfo], Seq[WorkerInfo]) = { 
val sortedFiles = new File (dir) .listFiles() .sortBy(_.getName) 
val appFiles = sortedFiles.filter(_.getName.startsWith ("app_")) 
val apps = appFiles.map (deserializeFromFile [ApplicationInfo] ) 
val driverFiles = sortedFiles.filter(_.getName.startsWith ("driver_")) 
val drivers = driverFiles.map (deserializeFromFile[DriverInfo] ) 
val workerFiles = sortedFiles.filter(_.getName.startsWith ("worker _")) 
val workers = workerFiles.map (deserializeFromFile[WorkerInfo] ) 
(apps, drivers, workers) 


private def serializeIntoFile(file: File, value: AnyRef) { 
val created = file.createNewFile() 
if (!created) { throw new IllegalStateException ("Could not create file: " + file) } 
val serializer = serialization. findSerializerFor (value) 
val serialized = serializer.toBinary (value) 
val out = new FileOutputStream (file) 
try { 
out.write (serialized) 
} finally { 
out.close() 
} 
} 
def deserializeFromFile[T] (file: File) (implicit m: Manifest[T]): T = { 
val fileData = new Array[Byte] (file.length() .asInstanceOf [Int] ) 
val dis = new DataInputStream(new FileInputStream (file) ) 
try { 
dis.readFully (fileData) 
} finally { 
dis.close() 


val clazz = m.runtimeClass.asInstanceOf [Class [T] ] 
val serializer = serialization.serializerFor (clazz) 
serializer. fromBinary (fileData) .asInstanceOf [T] 











当 spark.deploy.recoveryMode 为 FiLESYSTEM 时 ， 领 导 选 举 代理 是 MonarchyLeaderAgent。 根 据 代码 清单 7-8， 选 举 时 会 从 FileSystempPersistenceEngine 中 读 取 持久 化 集群 信息 ， 然 后 调 
beginRecovery 方 法 ( 见 代码 清单 7-52) 恢复 集群 ， 最 后 设置 一 个 向 Master 自 身 发 送 Com-pleteRecovery 消 息 的 定时 调度 。 






































beginRecovery 方 法 恢复 集群 的 步骤 如 下 。 








1) 将 读 取 的 集群 信息 中 的 Applicationlnf 调用 registerApplication 方 法 注册 。 





2) 将 读 取 的 集群 信息 中 的 Driverlnfo 重 新 添加 到 缓存 drivers 中 。 


























3) 将 读 取 的 集群 信息 中 的 Workerlnfo 重 新 调用 registerWorker 方 法 注册 。 


代码 清单 7-52 “Master 的 beginRecovery 方 法 





def beginRecovery(storedApps: Seq[ApplicationInfo], storedDrivers: Seq[DriverInfo], 
storedWorkers: Seq[WorkerInfo]) { 
for (app <- storedApps) { 
logInfo ("Trying to recover app: " + app.id) 
try { 
registerApplication (app) 
app.state = ApplicationState.UNKNOWN 
app.driver ! MasterChanged(masterUrl, masterWebUiUr1) 
} catch { 
case e: Exception => logInfo("App " + app.id + " had exception on reconnect") 


} 


for (driver <- storedDrivers) { 
drivers += driver 


for (worker <- storedWorkers) { 

logInfo ("Trying to recover worker: " + worker.id) 

try { 
registerWorker (worker) 
worker.state = WorkerState.UNKNOWN 
worker.actor ! MasterChanged(masterUrl, masterWebUiUr1l) 

} catch { 
case e: Exception => logInfo("Worker " + worker.id + " had exception on reconnect") 


} 





Master 收 到 CompleteRecovery 消 息 后 ， 匹 配 执行 completeRecovery 方 法 。 





case CompleteRecovery => completeRecovery () 




















completeRecovery 方 法 ( 见 代码 清单 7-53) 用 于 对 整个 集群 信息 进行 恢复 ， 处 理 步骤 如 下 : 











1) 通过 同步 保证 对 于 集群 恢复 只 发 生 一 次 。 














2) 将 所 有 没有 响应 的 Worker 通 过 调用 removeWorker 方 法 ( 见 代 码 清单 7-6) 清除 。 





























3) 将 所 有 没有 响应 的 Application 通 过 调用 finishApplication 方 法 清除 。 
4) 将 所 有 没有 被 调度 的 Driver 重 新 调度 。 


代码 清单 7-53 ”Master 的 completeRecovery 方 法 





def completeRecovery() { 
synchronized { 
if (state != RecoveryState.RECOVERING) { return } 
state = RecoveryState.COMPLETING RECOVERY 
} 
workers.filter(_.state == WorkerState.UNKNOWN) .foreach (removeWorker) 
apps. filter(_.state == ApplicationState.UNKNOWN) . foreach (finishApplication) 
drivers. filter (_.worker.isEmpty) .foreach { d => 
logWarning(s"Driver ${d.id} was not found after master recovery") 
if (d.desc.supervise) { 
logWarning(s"Re-launching ${d.id}") 
relaunchDriver (d) 
} else { 
removeDriver(d.id, DriverState.ERROR, None) 
logWarning(s"Did not re-launch ${d.id} because it was not supervised") 


} 


state = RecoveryState.ALIVE 
schedule () 
logInfo ("Recovery complete - resuming operations!") 





2. 使 用 ZooKeeper 提 供 的 选举 和 持久 化 














还 可 以 设置 spark.deploy.recoveryMode 为 ZOOKEEPER。 此 时 匹配 的 持久 化 引 警 是 Zoo-KeeperPersistenceEngine。ZooKeeperPersistenceEngine 也 实现 了 PersistenceEngine 的 接口 ， 见 代码 清单 


7-54。 


代码 清单 7-54 ZooKeeperPersistenceEngine 的 实现 











class ZooKeeperPersistenceEngine (serialization: Serialization, conf: SparkConf) 
extends PersistenceEngine 
with Logging 


val WORKING DIR = conf.get ("spark.deploy.zookeeper.dir", "/spark") + "/master_status" 
val zk: CuratorFramework = SparkCuratorUtil.newClient (conf) ~ 
SparkCuratorUtil.mkdir(zk, WORKING_DIR) 
override def addApplication(app: ApplicationInfo) { 

serializeIntoFile (WORKING DIR + "/app_" + app.id, app) 


override def removeApplication(app: ApplicationInfo) { 
zk.delete() .forPath (WORKING DIR + "/app_" + app.id) 


override def addDriver (driver: DriverInfo) { 
serializeIntoFile (WORKING DIR + “/driver_" + driver.id, driver) 
} 
override def removeDriver (driver: DriverInfo) { 
zk.delete () .forPath (WORKING DIR + "/driver_" + driver.id) 
} 
override def addWorker (worker: WorkerInfo) { 
serializeIntoFile (WORKING DIR + "/worker_" + worker.id, worker) 
} 
override def removeWorker (worker: WorkerInfo) { 
zk.delete() .forPath (WORKING DIR + "/worker_" + worker.id) 
} 
override def close() { 
zk.close() 


override def readPersistedData(): (Seq[ApplicationInfo], Seq[DriverInfo], Seq[WorkerInfo]) = 
val sortedFiles = zk.getChildren() .forPath (WORKING DIR) .toList.sorted 
val appFiles = sortedFiles.filter(_.startsWith("app_")) 
val apps = appFiles.map (deserializeFromFile[ApplicationInfo]) .flatten 
val driverFiles = sortedFiles.filter(_.startsWith ("driver ") 


) 
Th 
val drivers = driverFiles.map (deserializeFromFile[DriverInfo]) .flatten 
val workerFiles = sortedFiles.filter(_.startsWith ("worker ")) 
val workers = workerFiles.map (deserializeFromFile [WorkerInfo]) .flatten 


(apps, drivers, workers) 


private def serializeIntoFile (path: String, value: AnyRef) { 
val serializer = serialization. findSerializerFor (value) 
val serialized = serializer.toBinary (value) 
zk.create() .withMode (CreateMode.PERSISTENT) .forPath(path, serialized) 


def deserializeFromFile[T] (filename: String) (implicit m: Manifest[T]): Option[T] = { 
val fileData = zk.getData() .forPath (WORKING DIR + "/" + filename) 
val clazz = m.runtimeClass.asInstanceOf [Class [T] ] 
val serializer = serialization.serializerFor (clazz) 
try { 
Some (serializer. fromBinary (fileData) .asInstanceOf [T] ) 
} catch { 
case e: Exception => { 
logWarning ("Exception while reading persisted file, deleting", e) 
zk.delete() .forPath (WORKING DIR + "/" + filename) 
None 





当 spark.deploy.recoveryMode 为 ZOOKEEPER 时 ， 领 导 选 举 代理 是 ZooKeeperLeader-ElectionAgent。ZooKeeperLeaderElectionAgent 的 preStart 方 法 ( 见 代码 


的 选举 。 


代码 清单 7-55 ZooKeeperLeaderElectionAgent 的 preStart 方 法 


Eh 





ins 


7-55) 实现 了 基于 ZooKeeper 





override def preStart() { 
logInfo("Starting ZooKeeper LeaderElection agent") 


zk = SparkCuratorUtil.newClient (conf) 
leaderLatch = new LeaderLatch(zk, WORKING_DIR) 
leaderLatch.addListener (this) 

leaderLatch. start () 





Oe 


Curator 是 Netflix 开 源 的 一 套 ZooKeeper 客 户 端 框架 。Curator 极 大 地 简化 了 ZooKeeper 的 使 用 ， 它 提供 了 高 层次 的 API， 并 且 基 于 ZooKeeper 添 加 了 很 多 特性 。ZooKeeper-PersistenceEngine 和 
ZooKeeperLeaderElectionAgent 实 际 都 是 对 Curator API 的 封装 。 


如 果 要 以 ZooKeeper 作 为 热 备 (HA) 的 方案 ， 在 集群 启动 时 需 增加 一 些 配置 。 
编辑 spark-env.sh， 增 加 表 7-5 中 的 参数 。 


表 7-5 ”以 ZooKeeper 作 为 热 备 需要 增加 的 配置 





属性 名 
spark.deploy.recoveryMode= ZOOKEEPER 
spark.deploy.zookeeper.url=cms zk server 1:2181. cms zk server 2:2181 
spark.deploy.zookeeper.dir=/ust/zk/persist 





使 用 ZooKeeper 作 为 热 备 的 选举 方案 可 以 用 图 7-20 表 示 。 





CoarseGrainedExecutorBackend CoarseGrainedExecutorBackend 


Executor | Executor 


图 7-20 ZooKeeper 热 备 和 选举 示意 图 





7.5 “其 他 部 署 方案 





本 节 介 绍 Spark 运 行 在 第 三 方 资源 管理 集群 上 的 部 署 方案 。Spark 目 前 支持 运行 在 YARN 和 Mesos， 甚 至 运行 在 MRv1 框 架 上 。 对 于 MRv1 框 架 运行 Spark 的 内 容 ， 有 兴趣 的 读者 可 以 自行 研究 ， 本 文 不 做 
过 多 介绍 。 














7.5.1 YARN 


在 本 书 第 2 章 ， 笔 者 曾经 简单 介绍 了 MARv1 的 缺陷 以 及 MRv2 的 改进 。MRv1 的 运行 时 环境 由 JobTracker 和 TaskTracker 两 类 服务 组 成 ，JobTracker 负 责 资源 和 任务 的 管理 与 调度 ，TaskTracker 负 责 单个 
节点 的 资源 管理 和 任务 执行 。 在 YARN 中 ，JobTracker 被 分 为 两 部 分 : ResourceManager (RM) 和 ApplicationMaster (AM) 。RM 负 责 资源 管理 和 调度 ，AM 负 责 具 体 应 用 程序 的 任务 划分 、 调 度 等 工 


作 。YARN 的 运行 时 环境 如 图 7-2101] 所 示 。 
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图 7-21 YARN 的 运行 时 环境 





YARN 的 架构 如 图 7-22 所 示 。 











YARN 的 基本 结构 包括 以 下 部 分 。 


“ ResourceManager (RM) : 全 局 资源 管理 器 ， 负 责 整 个 系统 的 资源 管理 与 分 配 。RM 由 调度 器 和 应 用 程序 管理 器 组 成 。 调 度 器 将 系统 资源 分 配给 各 个 应 用 程序 ， 资 源 的 分 配 单位 不 再 是 MRv1 中 
的 “slot”， 而 是 Container。Container 是 对 CPU、 内 存 等 资源 的 封装 。 应 用 程序 管理 器 负责 管理 整个 系统 的 应 用 程序 ， 如 处 理 程序 提交 ， 与 调度 器 沟通 后 为 应 用 程序 启动 ApplicationMaster 等 。 


+ ApplicationMaster (AM) : 用 户 提交 的 每 个 任务 都 有 一 个 AM， 它 会 与 RM 通信 获取 资源 ， 将 任务 划分 为 更 细 粒 度 的 任务 ， 与 NodeManager (NM) 通信 启动 或 停止 任务 ， 监 控 失 败 任务 为 其 重新 申请 资源 
后 重新 启动 等 。 





MapReduce Status 
Job Submission 


Node Status 
Resource Request 


7-227] YARN 架 构 





“NodeManager (NM) : 单个 节点 上 的 资源 与 任务 管理 器 ， 它 负责 向 RM 定时 汇报 本 节点 的 资源 使 用 情况 及 各 个 Container 的 状态 ， 也 接受 处 理 AM 的 启动 或 停止 任务 请 求 。 


YARN 对 于 支持 的 MapReduce 框 架 是 可 播 拔 的 ，Spark 对 于 集群 管理 器 也 支持 可 插 拔 ， 两 者 不 谋 而 合 。 有 关 YARN 的 安装 和 使 用 ， 读 者 可 自行 翻阅 相关 书籍 。 假 设 我 们 已 经 部 署 好 了 YARN 集 群 ， 根 据 | 


请 与 调度 。Spark 也 提供 了 Application Master 的 实现 ApplicationMaster。 与 





7-22 所 有 应 用 程序 需要 一 个 Application Master， 这 个 Application Master 位 于 YARN 集 群 的 一 个 节点 上 ， 负 责 管理 资源 
YARN 集 成 时 整个 Spark 集 群 的 启动 顺序 如 下 。 





1) 将 Spark 提 供 的 ApplicationMaster 在 YARN 集 群 中 启动 〈 见 代码 清单 7-56) 。 





2) ApplicationMaster 向 ResourceManager 申 请 Container。 





3) 申请 Container 成 功 后 ， 向 具体 的 NodeManager 发 送 指令 启动 Container。 





4) ApplicationMaster 启 动 对 各 个 运行 的 ContainerExecutor 进 行 监控 。 


代码 清单 7-56 ApplicationMaster 的 main 方 法 


图 








def main(args: Array[String]) = { 
SignalLogger. register (log) 
val amArgs = new ApplicationMasterArguments (args) 
SparkHadoopUtil.get.runAsSparkUser { () => 
master = new ApplicationMaster(amArgs, new YarnRMClientImpl (amArgs) ) 
System.exit (master. run () ) 





ApplicationMaster 会 调用 构造 时 传 入 的 YarnRMClientImpl 的 register 方 法 ( 见 代码 清单 7-57) ， 向 YARN 注 册 AM。 


代码 清单 7-57 YarnRMClientlImpl 的 register 方 法 





override def register( 
conf: YarnConfiguration, 
sparkConf: SparkConf, 
preferredNodeLocations: Map[String, Set[SplitInfo]], 
uiAddress: String, 
uiHistoryAddress: String, 
securityMgr: SecurityManager) = { 
amClient = AMRMClient.createAMRMClient () 
amClient.init (conf) 
amClient.start () 
this.uiHistoryAddress = uiHistoryAddress 
logInfo ("Registering the ApplicationMaster") 
synchronized { 
amClient.registerApplicationMaster (Utils.localHostName(), 0, uiAddress) 
registered = true 


new YarnAllocationHandler (conf, sparkConf, amClient, getAttemptId(), args, 
preferredNodeLocations, securityMgr) 




















下 面 我 们 设置 master 为 “yarn-cluster”， 那 么 在 创建 TaskSchedulerlmpl 时 就 会 匹配 yarn-cluster 模 式 ， 见 代码 清单 7-58。 其 中 YarnClusterScheduler 继 承 自 TaskSchedulerlImpl， 因 此 
YarnClusterScheduler 将 负责 任务 的 提交 与 调度 。YarnSchedulerBackend 继 承 自 org.apache.spark.scheduler.cluster 包 中 的 CoarseGrainedSchedulerBackend，YarnClusterSchedulerBackend 又 继承 








了 YarnSchedulerBackend。 于 是 YarnClusterSchedulerBackend 就 是 TaskSchedulerlImpl 的 backend。 








代码 清单 7-58 SparkContext 匹 配 yarn-cluster 的 代码 





case "yarn-standalone" | "yarn-cluster" => 
if (master == "yarn-standalone") { 
logWarning ( 


"\"yarn-standalone\" is deprecated as of Spark 1.0. Use \"yarn-cluster\" instead.") 


} 
val scheduler tey { 
val clazz = Class.forName ("org.apache.spark.scheduler.cluster.YarnCluster-Scheduler") 
val cons = clazz.getConstructor (classOf [SparkContext] ) 
cons .newInstance (sc) .asInstanceOf [TaskSchedulerImp1] 
} catch { 
case e: Exception => { 
throw new SparkException ("YARN mode not available ?", e) 


} 


} 
val backend = try { 
val clazz = 
Class. forName ("org.apache. spark. scheduler.cluster.YarnClusterScheduler-Backend") 


val cons = clazz.getConstructor (classOf[TaskSchedulerImpl], classOf[SparkContext] ) 
cons.newInstance (scheduler, sc) .asInstanceOf [CoarseGrainedSchedulerBackend] 
} catch { 
case e: Exception => { 
throw new SparkException ("YARN mode not available ?", e) 
} 


scheduler. initialize (backend) 
(backend, scheduler) 



































根据 3.10 节 我 们 知道 ， 最 终 会 调用 YarnClusterSschedulerBackend 的 start 方 法 ， 其 中 主要 确定 了 期 望 获得 的 Executor 的 数量 ， 实 现 如 下 。 

















override def start() { 
super.start () 
totalExpectedExecutors = DEFAULT NUMBER EXECUTORS 
if (System. getenv ("SPARK_EXECUTOR_INSTANCES") != null) { 
totalExpectedExecutors = IntParam.unapply (System.getenv ("SPARK _EXECUTOR_INSTANCES") ) 
.getOrElse (totalExpectedExecutors) = g 
} 


totalExpectedExecutors = sc.getConf.getInt ("spark.executor.instances", totalExpectedExecutors) 











Driver Application 初 始 化 完毕 会 向 ApplicationMaster 进 行 注册 ， 在 YARN 部 署 模式 中 ，Worker 已 被 NodeManager 蔡 代 ，ApplicationMaster 给 Application 分 配 资源 主要 借助 于 代码 清单 7-57 中 构造 


的 YarnAllocationHandler。 








关于 YARN 部 署 模式 就 简单 介绍 这 些 ， 更 多 内 容 去 http://hadoop.apache.org/index.html 了 解 。 





7.5.2 Mesos 












































Mesos 是 诞生 于 UC Berkeley 的 一 个 研究 项 目 ， 现 已 成 为 Apache Incubator 中 的 项 目 。Mesos 是 一 个 集群 管理 器 ， 提 供 了 有 效 的 、 跨 分 布 式 应 用 或 框架 的 资源 隔离 和 共享 ， 可 以 灵活 支持 Hadoop、 
MPI、Hypertable、Spark 等 。 使 用 ZooKeeper 实 现 容错 复制 ， 采 用 Linux Container 对 内 存 和 CPU 进 行 隔离 。 





























Twitter 已 经 在 使 用 Mesos 管 理 集群 资源 。 





点 故障 ，master 是 非常 轻 量 级 的 ， 仅 保存 了 各 种 计算 框架 (如 Hadoop、MPI、Hypertable、Spark) 和 Mesos slave 的 一 些 状 


wg 














Mesos 为 了 简化 设计 ， 也 采用 了 master/slave 结 构 ， 为 了 解决 master 生 
态 ， 而 这 些 状态 很 容易 通过 framework 和 slave 重 新 注册 而 重 构 ， 因 此 很 容易 使 用 ZooKeeper 解 决 Mesos master 的 单 点 故障 问题 。Mesos 的 整体 架构 如 图 7-23B] 所 示 。 
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图 7-23 Mesos #442244 














Mesos master 实 际 上 是 一 个 全 局 资源 调度 器 ， 采 用 某 种 策略 将 某 个 slave 上 的 空闲 资源 分 配给 各 个 计算 框架 ， 各 种 计算 框架 通过 自己 的 调度 器 向 Mesos master 注 册 ， 以 接 入 Mesos 中 ; 而 Mesos slave 


主要 功能 是 汇报 任务 的 状态 和 启动 各 个 计算 框架 的 Executor (比如 Spark 的 Executor) 。 整 个 Mesos 系 统 采用 了 双 层 调度 框架 : 第 一 层 ， 由 Mesos 将 资源 分 配给 框架 ; 第 二 层 ， 框 架 自 己 的 调度 器 将 资源 分 
配给 自己 内 部 的 任务 。 



































在 Mesos 中 ， 各 种 计算 框架 是 完全 融入 Mesos 中 的 ， 也 就 是 说 ， 如 果 你 想 在 Mesos 中 添加 一 个 新 的 计算 框架 ， 首 先 需要 在 Mesos 中 部 署 一 套 该 框架 。 











如 果 我 们 设置 master 为 “mesos: /”， 那 么 在 创建 TaskSchedulerlImpl 时 就 会 匹配 代码 清单 7-59 中 的 实现 。 


代码 清单 7-59 SparkContext 匹 配 mesos: // 的 代码 








case mesosUrl @ MESOS_REGEX(_) => 
MesosNativeLibrary. load () 
val scheduler = new TaskSchedulerImpl (sc) 
val coarseGrained = sc.conf.getBoolean("spark.mesos.coarse", false) 
val url = mesosUrl.stripPrefix("mesos://") // strip scheme from raw Mesos URLs 
val backend = if (coarseGrained) { 
new CoarseMesosSchedulerBackend (scheduler, sc, url) 
} else { 
new MesosSchedulerBackend (scheduler, sc, url) 


scheduler. initialize (backend) 
(backend, scheduler) 























此 时 的 backend 可 以 是 CoarseMesosSchedulerBackend 或 者 MesosSchedulerBackend。 以 CoarseMesosSchedulerBackend 为 例 ， 它 的 start 方 法 ( 见 代码 清单 7-60) 通过 调用 Mesos 的 API 完 成 
Driver 的 注册 。 有 关 Mesos 的 API 的 细节 ， 请 访问 官网 http://mesos.apache.org/。 


代码 清单 7-60 ”CoarseMesosSchedulerBackend 的 启动 





override def start() { 
super.start () 
synchronized { 
new Thread ("CoarseMesosSchedulerBackend driver") { 
setDaemon (true) 
override def run() { 
val scheduler = CoarseMesosSchedulerBackend. this 
val fwInfo = FrameworkInfo.newBuilder () .setUser (sc.sparkUser) .setName (sc.appName) .build() 
driver = new MesosSchedulerDriver (scheduler, fwInfo, master) 
try { { 
val ret = driver.run() 
logInfo ("driver.run() returned with code " + ret) 
} 
} catch { 
case e: Exception => logError ("driver.run() failed", e) 


} 


} 
}.start () 
waitForRegister () 
} 





[1] B A RR Á H http: //blog.chinaunix.net/uid-2831 1809-id-4383551 html. 
[2] B® Á 4 Shttp://blog.csdn.net/iloveyin/article /details/28421009 
[3] 部 分 内 容 引 用 自 博文 http://www.tuicool.com/articles/buq2uqM。 


7.6 NG 














我 们 最 先 了 解 local 部 署 模式 ， 然 后 精读 local-cluster 部 署 模式 ， 最 后 分 析 Standalone 部 署 模式 。 这 样 能 够 由 简 入 难 ， 由 浅 入 深 ， 尽 可 能 帮助 读者 降低 阅读 Spark 源 码 与 理解 部 署 模 式 架构 原理 的 难度 。 
local 部 署 模式 和 local-cluster 部 署 模式 不 能 用 于 生产 ,为 了 简单 ， 生 产 中 可 以 选择 使 用 Standalone 部 署 模式 。 如 果 对 YARN 和 Mesos 也 有 一 定 了 解 ， 那 么 使 用 YARN 和 Mesos 也 非常 不 错 。 
















































































资源 调度 、 资 源 回收 以 及 容错 机 制 的 源码 剖析 ， 除 了 能 让 我 们 理解 Spark 为 什么 能 拥有 很 高 的 稳定 性 、 可 用 性 及 容错 能 力 外 ， 其 中 各 种 架构 设计 的 思想 值得 做 架构 设计 的 开发 人 员 学 习 。 
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第 8 章 Spark SQL 


游 驹 下 晴空 ， 寻 芳 到 萄 丛 ， 带 声 来 著 上 ， 连 影 在 香 中 。 





本 章 导 读 


在 很 多 情况 下 ， 工 程 师 不 了 解 Scala 语 言 ， 也 不 了 解 Spark 的 常用 API， 但 又 希望 使 用 强大 的 Spark 所 提供 的 数据 分 析 能 力 。 该 怎么 办 ? 有 没有 什么 工具 或 者 语言 能 降低 使 用 者 的 学 习 成 本 
呢 ? SQL (structured query language) 语言 从 20 世 纪 70 年 代 诞生 以 来 ， 如 今 已 经 走 过 了 40 多 年 。 由 于 其 常用 语法 简洁 ， 学 习 门 槛 低 ， 其 流行 程度 和 普及 程度 毋庸 置疑 。 甚 至 可 以 说 ， 一 条 SQL 让 世界 变 得 简单 。 


正如 Hadoop 提 供 了 SQL 供 开发 人 员 使 用 ，Spatk 的 工程 师 们 考虑 到 这 个 问题 ， 也 开发 了 Spatk 自 身 的 SQL 处 理 能 力 。 传 统 关系 型 数据 库 执行 一 条 SQL， 通 常 都 会 经 过 分 析 、 优 化 、 执 行 这 三 个 阶段 。 作 为 
Spatk 又 是 如 何 执行 SQL 的 呢 ? 带 着 这 个 疑问 ， 我 们 一 起 来 分 析 Spatk SQL 吧 ! 


8.1 Spark SQL 总 体 设计 


Spark SQL 的 前 身 是 Shark，Shark 是 伯克利 实验 室 Spark 生 态 环境 的 组 件 之 一 ， 运 行 在 Spark 上 。 由 于 Shark 对 于 Hive 的 太 多 依赖 制约 了 Spark 的 发 展 ，Spark SQL 由 此 产生 。 








假如 我 们 提交 了 一 条 简单 的 SQL 查询 语句 : 





SELECT name FROM people WHERE age >= 13 AND age <= 19 











这 条 SQL 语句 由 Projection (name) ` Data Source (people) . Filter (age>=13 AND age<=19) 组 成 ， 分 别 对 应 于 SQL 查询 过 程 中 的 Result、Data Source, Operation, BISQLIBA)BIRAR 
Result 一 Data Source 一 Operation 的 次 序 来 描述 的 ， 如 图 8-1 所 示 。 























Projection Data Source Filter 


Data Source > Operation 





图 8-1 SQL 语义 描述 





应 该 如 何 执行 呢 ? 我 们 先 来 看 看 传统 关系 型 数据 库 ， 再 来 看 Spark SQL 如 何 处 理 。 


8.1.1 ”传统 关系 型 数据 库 SQL 运 行 原理 





在 传统 关系 型 数据 库 的 执行 过 程 中 ， 先 将 SQL 语句 (Query) 进行 解析 (Parse) ， 找 出 其 中 的 关键 词 (如 SELECT、FROM、WHERE) 、 表 达 式 、Projection (a1, a2, a3) 、Data 


Source (tableA) 等 。 接 着 会 对 SQL 语句 校 验 规范 ， 如 果 规 范 则 将 SQL 语句 和 数据 库 的 数据 字典 ( 列 、 表 、 视 
(Optimize) ， 最 后 执行 该 计划 (Execute) ， 并 返回 结果 。 整 个 过 程 和 SQL 语句 的 次 序 正好 相反 ， 











如 











8-2 所 示 。 


图 等 ) 进行 绑 定 (Bind) ， 在 执行 前 ， 数 据 库 会 从 多 个 执行 计划 中 选择 一 个 最 优 计划 


m m - EEC 


图 8-2 ”SQL 执行 过 程 








语法 解析 后 ， 会 构建 SQ 


SELECT 


1 语句 的 语法 树 ， 如 图 8-3 所 示 。 











p.Name, 
Total = SUM(inv. Quantity) 


FROM 
Prod 
Prod 

WHERE 


uction. Product AS p, 
uction. Product Inventory AS inv 


inv. ProductID = p. ProductID 
AND p. Name LIKE N ‘[A-G]%’ 
GROUP BY 


p. Name; 


图 8-3 SQL 语句 转换 为 语法 树 


8.1.2 Spark SQL 运行 架构 


Spark 已 经 无 颖 接 入 了 SQL， 并 且 支 持 对 多 种 多 样 数据 源 的 查询 与 加 载 ， 


看 出 ， 基 于 Spark SQL 可 以 本 





读 Hive 相 关 资 料 。 





兼容 了 HiveSQL， 甚 至 可 以 


用 Hive 本 身 提供 的 元 数据 仓库 (MetaStore) 、HiveQL、 用 户 自 定义 函数 














UDF) 及 序列 化 和 反 序列 化 的 工 























PROJECT 
Name, Total 


GBAGG 
Group-by:Name 
Total := SUM(Quantity) 


SELECT 
ProductID=ProductID 
AND Name LIKE‘[A-G]%’ 


JOIN 
Cartesian Product 


GET 
Product 





(SerDes) 。 有 关 Hive 中 这 些 工具 





的 具 





GET 


JDBC 或 者 ODBC 来 连接 Spark SQL。Spark 官 网 给 出 了 Spark SQL 的 架构 ， 如 图 





Inventory 





8-4 所 示 。 从 图 8- 








体 使 























， 请 读者 自行 i 


ay 





HiveQL UDFs SerDes 
Spark SQL 


Apache Spark 


Spark SOL can use existiong Hive metastores, 
serDes, and UDFs 


图 8-4 Spark SQL 体系 架构 





现在 我 们 来 看 看 Spark SQL 如 何 处 理 ? Spark SQL 也 采用 了 类 似 的 办 法 处 理 SQL， 通 过 了 解 Spark SQL 上 下 文 SQLContext 的 实现 ， 我 们 会 对 Spark SQL 运行 架构 有 个 大 体 的 认识 ， 其 实现 见 代码 清单 8- 


代码 清单 8-1 SQLContext 的 实现 





@AlphaComponent 
class SQLContext (@transient val sparkContext: SparkContext) 
extends org.apache.spark. Logging 
with SQLConf 
with CacheManager 
with ExpressionConversions 
with UDFRegistration 
with Serializable { 
self => 
@transient 
protected[sql] lazy val catalog: Catalog = new SimpleCatalog (true) 
@transient 
protected[sql] lazy val functionRegistry: FunctionRegistry = new SimpleFunctionRegistry 
@transient 
protected[sql] lazy val analyzer: Analyzer = 
new Analyzer(catalog, functionRegistry, caseSensitive = true) 


@transient 

protected[sql] lazy val optimizer: Optimizer = DefaultOptimizer 
@transient 

protected[sql] val ddlParser = new DDLParser 

@transient 


protected[sql] val sqlParser = { 
val fallback = new catalyst.SqlParser 

new catalyst .SparkSQLParser (fallback (_)) 
} 
@transient 
protected[sql] val planner = new SparkPlanner 
@transient 
protected[sql] val prepareForExecution = new RuleExecutor[SparkPlan] { 

val batches = 

Batch ("Add exchange", Once, AddExchange(self)) :: Nil 











通过 阅读 SQLContext 的 源码 ， 可 以 看 出 SQLContext 由 以 下 部 分 组 成 : 

Catalog: 字典 表 ， 用 于 注册 表 ， 对 表 缓 存 后 便于 查询 。 

“ DDLParser: 用 于 解析 DDL 语 句 ， 如 创建 表 。 

“ SparkSQLParser: 作为 SqlParset 的 代理 ， 处 理 一 些 SQL 中 的 通用 关键 字 。 

“ SqlParser: 用 于 解析 select 查 询 语句 。 

- Analyzer: 对 还 未 分 析 的 逻辑 执行 计划 (LogicalPlan) 进行 分 析 。 

- Optimizer: 对 已 经 分 析 过 的 逻辑 执行 计划 (LogicalPlan) 进行 优化 。 

“ SparkPlanner: 用 于 将 逻辑 执行 计划 (LogicalPlan) 转换 为 物理 执行 计划 (Physical-Plan) 。 


+ prepareForExecution: 用 于 将 物理 执行 计划 (PhysicalPlan) 转换 为 可 执行 物理 计划 。 








这 些 部 分 共同 参与 到 SQL 的 执行 过 程 中 ， 如 图 8-5 所 示 ， 步 又 如 下 : 





[ 





1) SQL 语句 经 过 SqlParser 解 析 成 Unresolved LogicalPlan; 














2) 使 用 analyzer 结 合 数据 字典 (catalog) 进行 绑 定 ， 生 成 Resolved LogicalPlan; 








3) 使 用 optimizer 对 Resolved LogicalPlan 进 行 优化 ， 生 成 Optimized LogicalPlan; 


4) 使 用 SparkPlan 将 LogicalPlan 转 换 成 PhysicalPlan ; 





5) 使 用 prepareForExecution 将 PhysicalPlan 转 换 成 可 执行 物理 计划 ; 


6) 使 用 execute () 执行 可 执行 物理 计划 ， 生 成 SchemaRDD。 


@ 
© 


图 8-5 Spark SQL 执行 过 程 








接 下 来 我 们 将 逐个 介绍 Spark SQL 中 的 这 些 组 件 ， 以 及 这 些 组 件 是 如 何 配合 的 。 


8.2 ”字典 表 Catalog 


Catalog 是 一 个 特质 ， 定 义 了 以 下 接口 : 





+ tableExists: 判断 表 是 否 存在 。 

“ lookupRelation: 使 用 表 名 查找 关系 。 
registerTable: 注册 表 。 
“unregisterTable: 取消 注册 表 。 


:untegisterAllTables: 清除 所 有 已 经 注册 的 表 。 





Catalog 的 接口 定义 见 代码 清单 8-2。 





代码 清单 8-2 ”特质 Catalog 的 接口 定义 














trait Catalog { 
def caseSensitive: Boolean 
def tableExists (tableIdentifier: Seq[String]): Boolean 
def lookupRelation ( 
tableIdentifier: Seq[String], 
alias: Option[String] = None): LogicalPlan 
def registerTable(tableIdentifier: Seq[String], plan: LogicalPlan): Unit 
def unregisterTable(tableIdentifier: Seq[String]): Unit 
def unregisterAllTables(): Unit 
protected def processTableIdentifier (tableIdentifier: Seq[String]): Seq[String] = { 
if (!caseSensitive) { 
tableIdentifier.map (_.toLowerCase) 
} else { 
tableIdentifier 
} 


} 
protected def getDbTableName (tableIdent: Seq[String]): String = { 
val size = tableIdent.size 
if (size <= 2) { 
tableIdent .mkString(".") 
} else { 
tableIdent.slice(size - 2, size) .mkString(".") 
i } 
protected def getDBTable(tableIdent: Seq[String]) : (Option[String], String) = { 
(tableIdent.lift (tableIdent.size - 2), tableIdent.last) 
} 











SimpleCatalog 是 Catalog 的 常用 实现 类 ， 它 实现 了 Catalog 中 的 所 有 接口 ， 见 代码 清单 8-3。 所 谓 注册 功能 ， 实 际 就 是 将 表 名 与 LogicalPlan 一 起 放 入 缓存 tables : 
mutable.HashMap[String，LogicalPlan] 中 。 








代码 清单 8-3 SimpleCatalog 的 实现 





class SimpleCatalog(val caseSensitive: Boolean) extends Catalog { 


val tables = new mutable.HashMap[String, LogicalPlan] () 
override def registerTable ( 
tableIdentifier: Seq[String], 
plan: LogicalPlan): Unit = { 
val tableIdent = processTableIdentifier (tableIdentifier) 
tables += ((getDbTableName(tableIdent), plan) ) 
} 
override def unregisterTable(tableIdentifier: Seq[String]) = { 
val tableIdent = processTableIdentifier (tableIdentifier) 
tables -= getDbTableName (tableIdent) 


override def unregisterAllTables() = { 
tables.clear () 
f 
override def tableExists(tableIdentifier: Seq[String]): Boolean = { 
val tableIdent = processTableIdentifier (tableIdentifier) 
tables .get (getDbTableName (tableIdent)) match { 
case Some(_) => true 
case None => false 
} 
} 
override def lookupRelation ( 
tableIdentifier: Seq[String], 
alias: Option[String] = None): LogicalPlan = { 
val tableIdent = processTableIdentifier (tableIdentifier) 
val tableFullName = getDbTableName (tableIdent) 
val table = tables.getOrElse (tableFullName, sys.error(s"Table Not Found: $tableFullName") ) 
val tableWithQualifiers = Subquery(tableIdent.last, table) 
alias.map(a => Subquery(a, tableWithQualifiers) ) .getOrElse (tableWithQualifiers) 





8.3 Tree 和 TreeNode 


Spark 的 语法 树 是 由 TreeNode 实 现 的， 我 们 先 来 看 看 TreeNode 的 部 分 实现 ， 见 代码 清单 8-4。 


代码 清单 8-4 TreeNode 的 部 分 实现 





abstract class TreeNode[BaseType <: TreeNode[BaseType]] { 
self: BaseType with Product => 
def children: Seq[BaseType] 
def foreach(f: BaseType => Unit): Unit = { 
f (this) 
children. foreach (_. foreach (f) ) 
def map[A] (f: BaseType => A): Seq[A] = { 
val ret = new collection.mutable.ArrayBuffer [A] () 
foreach (ret += f(_)) 
ret 


def flatMap[A] (f: BaseType => TraversableOnce[A]): Seq[A] = { 
val ret = new collection.mutable.ArrayBuffer [A] () 
foreach (ret += f( )) 
ret zs 


def collect [B] (pf: PartialFunction[BaseType, B]): Seq[B] = { 
val ret = new collection.mutable.ArrayBuffer [B] () 
val lifted = pf.lift 
foreach (node => lifted (node) .foreach (ret.+=) ) 
ret 



































除了 Scala 中 耳熟能详 的 方法 foreach、map、flatMap、collect 外 ，TreeNode 还 实现 了 应 用 Rule 的 方法 ， 比 如 transformDown、transformUp 将 Rule 应 用 到 给 定 的 树 段 ， 并 用 结果 蔡 代 | 日 的 树 段 ; 
transformChildrenDown、transformChildrenUp 对 一 个 给 定 的 节点 进行 操作 ， 通 过 迭代 将 Rule 应 用 到 该 节点 以 及 子 节点 。 我 们 以 transformDown 为 例 来 看 看 其 实现 ， 见 代码 清单 8-5。 












































代码 清单 8-5 TreeNode 的 transformDown 方 法 





def transform(rule: PartialFunction[BaseType, BaseType]): BaseType = { 
transformDown (rule) 


def transformDown (rule: PartialFunction[BaseType, BaseType]): BaseType = { 
val afterRule = rule.applyOrElse(this, identity[BaseType] ) 
if (this fastEquals afterRule) { 
transformChildrenDown (rule) 
} else { 
afterRule.transformChildrenDown (rule) 
} 


} 
def transformChildrenDown (rule: PartialFunction[BaseType, BaseType]): this.type = { 


var changed = false 
val newArgs = productIterator.map { 
case arg: TreeNode[_] if children contains arg => 


val newChild = arg.asInstanceOf [BaseType] .transformDown (rule) 
if (! (newChild fastEquals arg)) { 
changed = true 
newChild 
} else { 
arg 
} 
case Some (arg: TreeNode[_]) if children contains arg => 
val newChild = arg.asInstanceOf [BaseType] .transformDown (rule) 
if (! (newChild fastEquals arg)) { 
changed = true 
Some (newChild) 
} else { 
Some (arg) 
} 
case m: Map[_,_] => m 
case args: Traversable[_] => args.map { 
case arg: TreeNode[_] if children contains arg => 
val newChild = arg.asInstanceOf [BaseType] .transformDown (rule) 
if (!(newChild fastEquals arg)) { 
changed = true 
newChild 
} else { 
arg 
} 
Case other => other 
} 
case nonChild: AnyRef => nonChild 
case null => null 
}.toArray 
if (changed) makeCopy(newArgs) else this 





TreeNode 共 有 3 种 。 


:UnaryNode: 一 元 节点 ， 即 只 有 一 个 子 节 点 的 节点 。 如 Project、Sort、Limit、Filter 等 操作 。 


- BinaryNode: 二 元 节点 ， 即 有 左右 两 个 子 节点 的 节点 。 如 Except、Intersect 操 作 。 
“ LeafNode: 叶子 节点 ， 即 没有 子 节点 的 节点 。 如 SetCommand、DescribeCommand、ExplainCommand 等 。 
3 种 TreeNode 的 实现 见 代码 清单 8-6。 


代码 清单 8-6 ”3 种 TreeNode 





jek 
* A [[TreeNode]] that has two children, [[left]] and [[right]]. 
+ 
trait BinaryNode[BaseType <: TreeNode[BaseType]] { 
def left: BaseType 
def right: BaseType 
def children = Seq(left, right) 


} 
/** 
* A [[TreeNode]] with no children. 
Sy 


trait LeafNode[BaseType <: TreeNode[BaseType]] { 
def children = Nil 

} 

/** 

* A [[TreeNode]] with a single [[child]]. 

ay: 

trait UnaryNode[BaseType <: TreeNode[BaseType]] { 
def child: BaseType 
def children = child :: Nil 

} 














TreeNode 的 继承 体系 中 最 重要 的 一 些 类 如 图 8-6 所 示 。 











<<interface>> 
trees. LeafNode 


<<interface>> 
trees. UnaryNode 


<<interface>> <<interface>> 
trees. TreeNode trees. BinaryNode 





aa 


本 \R 


SparkPlan LogicalPlan 


图 8-6 TreeNode 的 继承 体系 中 最 重要 的 一 些 类 


在 org.apache.spark.sql.catalyst.plans.logical 包 中 定义 了 大 量 LogicalPlan 的 子 类 ; 在 org.apache.spark.sql.catalyst.expressions 包 中 定义 了 大 量 Expression 的 子 类 ; 在 
org.apache.spark.sql.execution 包 中 定义 了 大 量 SparkPlan 的 子 类 。 








这 里 以 LogicalPlan 的 继承 体系 (如 图 8-7 所 示 ) 为 例 。 其 他 的 继承 体系 ， 有 兴趣 的 读者 可 以 自行 查看 。 
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图 8-7 LogicalPlan 的 继承 体系 





8.4 ”词法 解析 器 Parser 的 设计 与 实现 








词法 解析 发 生 在 任务 提交 之 前 ， 在 Parser 阶 段 ， 常 用 的 关于 SQL 解析 的 类 有 : 











“ DDLParser: 临时 表 创 建 解析 器 ， 主 要 用 来 解析 创建 临时 表 的 DDL 语 句 。 
“ SqlParser: SQL 语句 解析 器 ， 解 析 select、insett 等 SQL 语句 。 
“ SparkSQLParser: 用 于 代理 SqlParser， 对 AS、CACHE、SET 等 关键 字 进 行 处 理 。 


Parser 相 关 的 类 继承 体系 如 图 8-8 所 示 。 





<<interface>> 
PackratParsers 








图 8-8 ”Parser 相 关 的 类 继承 体系 











84.1 ”SQL 语 句 解析 的 入 口 











SQLContext 的 SQL 方法 是 解析 所 有 SQL 的 总 入 口 ， 但 实际 的 解析 交 给 了 parseSq| 方 法 ， 见 代码 清单 8-7。 














代码 清单 8-7 SQLContext 中 SQL 语 句 解析 的 入 





def sql (sqlText: String): SchemaRDD = { 


if (dialect == "sql") { 
new SchemaRDD (this, parseSql (sqlText) ) 
} else { 


sys.error(s"Unsupported SQL dialect: S$dialect") 
} 

















parseSql 首 先 调 用 DDLParser 解 析 SQL， 如 果 解 析 失 败 则 调用 SparkSQLParser 解 析 ， 见 代码 清单 8-8。 


























代码 清单 8-8 SQLContext 的 parseSq| 方 法 





protected[sql] def parseSql (sql: String): LogicalPlan = { 
ddlParser (sql) .getOrElse (sqlParser (sql) ) 
} 





这 里 看 起 来 像 是 调用 了 DDLParser 和 SparkSQLParser 的 构造 器 ， 但 是 DDLParser 却 没有 这 样 一 个 构造 器 啊 ! 根据 Scala 语 法 我 们 知道 ， 如 果 定 义 了 一 个 类 A， 而 且 定义 了 apply (input: String) 方法 ， 
那么 使 用 A ("hello") 时 实际 是 调用 其 apply 方 法 。 那 么 ddlParser (sql) 实际 隐 式 调用 了 apply 方 法 ， 见 代码 清单 8-9。 






































代码 清单 8-9 ”DDLParser 的 apply 方 法 





def apply (input: String): Option[LogicalPlan] = { 
phrase (ddl) (new lexical.Scanner(input)) match { 
case Success(r, x) => Some(r) 
case x => 
logDebug(s"Not recognized as DDL: $x") 
None 











无 论 SqlParser 还 是 SparkSQLParser， 都 继承 自 AbstractSparkSQLParser。AbstractSpark-SQLParser 也 定义 了 apply 方 法 ， 因 此 sqlParser (sql) 实际 隐 式 调用 了 父 类 的 apply 方 法 ， 见 代码 清单 8- 


10。 


代码 清单 8-10 ”AbstractsparkSQLParser 的 apply 方 法 





def apply(input: String): LogicalPlan = phrase(start) (new lexical.Scanner(input)) match { 
case Success(plan, _) => plan 
case failureOrError => sys.error(failureOrError.toString) 


} 
protected case class Keyword(str: String) 
protected def start: Parser[LogicalPlan] 








以 上 代码 中 都 有 phrase (query) (new lexical.Scanner (input) ) 的 语句 ， 这 条 语句 让 笔者 百 思 不 得 其 解 ， 最 后 在 网 络 上 找到 了 一 些 答案 : 这 条 语句 调用 了 Scala 的 内 置 包 
scala.util.parsing.combinator 中 的 功能 ， 它 的 含义 是 对 input 进 行 解析 ， 符 合 query 的 模式 的 就 返回 Success。AbstractSparkSQLParser 中 的 模式 为 start， 但 没有 实现 。 后 面 会 具体 介绍 DDLParser 中 的 模 























式 ddl 以 及 SqlParser 和 SparkSQLParser 都 实现 的 start 模 式 。 


8.4.2 ” 建 表 语 句 解析 器 DDLParser 











DDLParser 主 要 用 于 创建 临时 表 ， 实 现 见 代码 清单 8-11。 











代码 清单 8-11 DDLParser 的 实现 





protected val CREATE = Keyword ("CREATE") 
protected val TEMPORARY = Keyword ("TEMPORARY") 
protected val TABLE = Keyword ("TABLE") 
protected val USING = Keyword ("USING") 
protected val OPTIONS = Keyword ("OPTIONS") 
protected val reservedWords = 
this.getClass 
-getMethods 
„filter (_.getReturnType == classOf [Keyword] ) 
.map( .invoke (this) .asInstanceOf [Keyword] .str) 
override val lexical = new SqlLexical (reservedWords) 
protected lazy val ddl: Parser[LogicalPlan] = createTable 
protected lazy val createTable: Parser[LogicalPlan] = 
CREATE ~ TEMPORARY ~ TABLE ~> ident ~ (USING ~> className) ~ (OPTIONS ~> options) ^^ { 
case tableName ~ provider ~ opts => 
CreateTableUsing(tableName, provider, opts) 








从 实现 可 以 看 出 ，DDLParser 的 模式 dd 实际 是 createTable。createTable 要 匹配 的 模式 如 下 : 





CREATE TEMPORARY TABLE avroTable 
USING org.apache.spark.sql.avro 
OPTIONS (path "http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/../hive/src/test/resources/data/files/episodes.avro") 











CreateTableUsing 的 run 方 法 实际 实例 化 USING 关 键 字 后 的 class， 并 调用 它 的 createRelation 方 法 创建 relation， 见 代码 清单 8-12。 














代码 清单 8-12 ”CreateTableUsing 的 实现 





private[sql] case class CreateTableUsing( 
tableName: String, 
provider: String, 
options: Map[String, String]) extends RunnableCommand { 
def run(sqlContext: SQLContext) = { 
val loader = Utils.getContextOrSparkClassLoader 
val clazz: Class[_] = try loader.loadClass (provider) catch { 
case cnf: java.lang.ClassNotFoundException => 
try loader.loadClass (provider + ".DefaultSource") catch { 
case cnf: java.lang.ClassNotFoundException => 
sys.error(s"Failed to load class for data source: S$provider") 
} 
} 
val dataSource = clazz.newInstance () .asInstanceOf [org.apache.spark.sql.sources.RelationProvider] 
val relation = dataSource.createRelation (sqlContext, options) 
sqlContext .baseRelationToSchemaRDD (relation) .registerTempTable (tableName) 
Seq.empty 





84.3 SQL 语句 解析 器 SqlParser 








SqlParser 用 于 解析 SQL 语句 ， 其 基本 实现 见 代码 清单 8-13。 














代码 清单 8-13 ”SqlParser 的 实现 





protected val SELECT = Keyword ("SELECT") 
protected val SEMI = Keyword ("SEMI") 
protected val SQRT = Keyword ("SQRT") 
protected val STRING = Keyword ("STRING") 
protected val SUBSTR = Keyword ("SUBSTR") 
protected val SUBSTRING = Keyword ("SUBSTRING") 
protected val SUM = Keyword ("SUM") 
protected val TABLE = Keyword ("TABLE") 
protected val THEN = Keyword ("THEN") 
protected val TIMESTAMP = Keyword ("TIMESTAMP") 
protected val TRUE = Keyword ("TRUE") 
protected val UNION = Keyword ("UNION") 
protected val UPPER Keyword ("UPPER") 
protected val WHEN = Keyword ("WHEN") 
protected val WHERE = Keyword ("WHERE") 
protected val reservedWords = 
this 
«getClass 
.getMethods 
‘filter(_.getReturnType == classOf [Keyword] ) 
-map (_. invoke (this) .asInstanceOf [Keyword] .str) 
override val lexical = new SqlLexical (reservedWords) 








SqlParser 支 持 对 select、insert、ordering、projection 等 多 种 SQL 的 解析 ， 由 于 其 实现 的 语法 星 深 难 懂 ， 笔 者 查阅 Scala 自 带 的 API 文 档 ， 先 罗列 几 个 操作 符 (函数 ) 的 含义 ， 如 表 8-1 所 示 。 








表 8-1 ARE CRA) 含义 


操作 符 ( 函数 ) a X 
~> 按 顺序 组 合 的 解析 器 ， 匹 配 后 只 保留 右边 。 如 : A~>B 则 保留 B 
~ 按 顺 序 组 合 的 解析 器 ， 用 于 匹配 。 如 : A~>B 则 保证 A 必须 在 B 左边 
AAA 组 合 的 解析 器 ， 用 于 将 成 功 的 结果 替换 原 值 
组 合 的 解析 器 ， 匹 配 后 将 右边 返回 。 如 : A^^B 则 返回 B 








我 们 首先 看 看 SqlParser 的 start 定 义 ， 它 可 以 将 UNION ALL 语 名 替换 为 Union; 将 INTERSECT 关 键 词 替 换 为 Intersect; 将 EXCEPT 蔡 换 为 Except; 将 UNION DISTINCT 蔡 换 为 Distinct。 其 实现 见 代码 
清单 8-14。 





代码 清单 8-14 SqlParser 的 start 定 义 





protected lazy val start: Parser[LogicalPlan] = 


( select * 
( UNION ~ ALL ^^^ { (ql: LogicalPlan, q2: LogicalPlan) => Union(ql, q2) } 
| INTERSECT ^^^ { (ql: LogicalPlan, q2: LogicalPlan) => Intersect (ql, q2) } 
| EXCEPT ^^^ { (ql: LogicalPlan, q2: LogicalPlan) => Except (ql, q2)} 
| UNION ~ DISTINCT.? ^^^ { (ql: LogicalPlan, q2: LogicalPlan) => Distinct (Union (q1, q2)) } 
) 
| insert 


) 





以 SqlParser 的 select 方 法 为 例 ， 理 解 SqlParser 的 实现 ， 见 代码 清单 8-15。 





代码 清单 8-15 SqlParser 的 select 代 码 





protected lazy val select: Parser[LogicalPlan] = 
SELECT ~> DISTINCT.? ~ 
repsep (projection, ",") ~ 
(FROM ~> relations) .? ~ 
WHERE ~> expression) .? ~ 


GROUP ~ BY ~> replsep(expression, ",")).? ~ 
ORDER ~ BY ~> ordering) .? ~ 


( 
( 
(HAVING ~> expression) .? ~ 
( 
( 


LIMIT ~> expression).? ^^ { 
tase d~p* r+ f = gehengel = 
val base = r.getOrElse (NoRelation) 
val withFilter = f.map(Filter(_, base)) .getOrElse (base) 
val withProjection = g 


.map (Aggregate (_, assignAliases(p), withFilter) ) 
-getOrElse (Project (assignAliases (p), withFilter) ) 
val withDistinct = d.map(_ => Distinct (withProjection)).getOrElse (withProjection) 
val withHaving = h.map(Filter(_, withDistinct)).getOrElse (withDistinct) 
val withOrder o.map (Sort (_, withHaving) ) .getOrE1lse (withHaving) 
val withLimit l.map (Limit (_, withOrder) ) .getOrElse (withOrder) 
withLimit ~ 





select 的 代码 实现 : 


1) 匹配 SELECT 语句 ， 获 取 DISTINCT 语 句 、 投 影 字段 projection、 表 relations、WHERE 后 的 表达 式 、GROUP BY 后 的 表达 式 、HAVING 后 的 表达 式 、 排 序 字 段 ordering、LIMIT 后 的 表达 式 。 























2) 依次 将 匹配 的 字符 串 层 层 封装 为 Fiter、Aggregate、Project、Distinct、Sort、Limit (这 里 说 的 Filter、Aggregate、Project、Distinct、Sort、Limit 正 是 图 8- 
TreeNode) ， 最 终 形成 一 棵 LogicalPlan 的 Tree。 





ʻi 











展示 的 继承 体系 中 的 各 种 


tir 








经 过 对 SqlParser 源 码 的 阅读 ， 我 们 知道 Spark 目 前 不 支持 delete、update 等 操作 。 

















我 们 抽 几 个 具体 的 TreeNode 来 看 看 其 实现 。Join 是 最 常用 的 TreeNode 之 一 ， 包 括 左 外 连接 、 右 外 连接 、 全 外 连接 、 笛 卡尔 积 等 ， 见 代码 清单 8-16。 








代码 清单 8-16 ”basicOperators.scala 中 实现 Join 操 作 的 代码 


case class Join( 
left: LogicalPlan, 
right: LogicalPlan, 
joinType: JoinType, 
condition: Option[Expression]) extends BinaryNode { 
override def output = { 
joinType match { 
case LeftSemi => 
left.output 
case LeftOuter => 
left.output ++ right.output.map(_.withNullability (true) ) 
case RightOuter => -7 
left.output.map (_.withNullability(true)) ++ right.output 
case Fullouter => ` 
left.output.map (_.withNullability (true)) ++ right.output.map (_.withNullability (true) ) 
case _ => 
left.output ++ right.output 





8.4.4 _ Spark 代理 解析 器 SparkSQLParser 








SparkSQLParserF 








于 代理 SqlParser 对 AS、CACHE、SET、LAZY、TABLE、UNCACHE 这 些 关 键 字 的 处 理 ， 见 代码 清单 8-17。 








代码 清单 8-17 SparkSQLParser 的 实现 





private[sql] class SparkSQLParser (fallback: String => LogicalPlan) extends AbstractSparkSQLParser { 
protected val AS Keyword ("AS") 
protected val CACHE Keyword ("CACHE") 
protected val LAZY Keyword ("LAZY") 
protected val SET Keyword ("SET") 
( 
( 


protected val TABLE Keyword ("TABLE") 
protected val UNCACHE = Keyword ("UNCACHE") 
protected implicit def asParser(k: Keyword): Parser[String] = 
lexical.allCaseVersions (k.str) .map(x => x : Parser[String]).reduce(_ | _) 
private val reservedWords: Seq[String] = 
this 
„getClass 
.getMethods 
.filter( .getReturnType == classOf [Keyword]) 
-map ( .invoke (this) .asInstanceOf [Keyword] .str) 
override val lexical = new SqlLexical (reservedWords) 
override protected lazy val start: Parser[LogicalPlan] = cache | uncache | set | others 





SparkSQLParser 的 start 定 义 实 际 是 分 别 匹配 cache、uncache、set 或 者 others。 








以 SparkSQLParser 的 set 方 法 为 例 ， 看 看 其 实现 。set 是 通过 内 部 类 SetCommandParser 来 实现 将 set 语 句 后 的 Kk=v 匹 配 封装 为 Some (k~v) ， 之 后 再 封装 为 图 8-7 中 TreeNode 的 子 类 SetCommand， 
见 代码 清单 8-18。 

















代码 清单 8-18 SparkSQLParser 中 SetCommandParser 的 实现 





private object SetCommandParser extends RegexParsers { 
private val key: Parser[String] = "(?m) [*=]+".r 
private val value: Parser[String] = "(?m).*$".r 
private val pair: Parser[LogicalPlan] = 
(key ~ (" ~> value).?).? ^^ { 
case None => SetCommand (None) 
case Some(k ~ v) => SetCommand (Some (k.trim -> v.map(_.trim))) 





} 
def apply(input: String): LogicalPlan = parseAll(pair, input) match { 
case Success (plan, => plan 
case x => sys.error(x.toString) 
} 
} 
private lazy val set: Parser[LogicalPlan] = 
SET ~> restInput ^^ { 
case input => SetCommandParser (input) 


} 





8.5 Rule#QRuleExecutor 


根据 前 面 内 容 的 介绍 ， 我 们 知道 SQL 语句 经 过 Parser 阶 段 的 处 理 ， 转 换 为 Unresolved LogicalPlan 的 一 棵 树 ，Analyzer 和 optimizer 将 会 对 LogicalPlan 的 这 棵 树 施加 各 种 分 析 与 优化 操作 ， 这 些 分 析 与 
优化 操作 实际 就 是 一 系列 的 Rule。Rule 是 一 个 抽象 类 ， 让 我 们 看 看 它 的 实现 ， 见 代码 清单 8-19。 





代码 清单 8-19 ”Rule 的 抽象 定义 





abstract class Rule[TreeType <: TreeNode[_]] extends Logging { 
val ruleName: String = { ii 
val className = getClass .getName 
if (className endsWith "$") className.dropRight (1) else className 


} 
def apply (plan: TreeType): TreeType 














执行 Rule， 见 代码 清单 8-20。RuleExecutor 中 的 一 些 概念 : 











RuleExecutor 用 了 
` Strategy: 执行 策略 ， 即 执行 Rule 的 最 大 次 数 。 

“Once: 只 执行 一 次 Rule 的 策略 。 

“ FixedPoint: 达到 FixedPoint 指 定 次 数 或 前 后 两 次 的 树 结构 没 变化 时 停止 操作 的 策略 。 


“ Batch: 一 批 Rule 及 其 相应 的 执行 策略 。 


代码 清单 8-20 ”RuleExecutor 的 抽象 定义 





abstract class RuleExecutor[TreeType <: TreeNode[_]] extends Logging { 
abstract class Strategy { def maxIterations: Int } 
case object Once extends Strategy { val maxIterations = 1 } 
case class FixedPoint (maxIterations: Int) extends Strategy 
protected case class Batch (name: String, strategy: Strategy, rules: Rule[TreeType]*) 
protected val batches: Seq[Batch] 
def apply(plan: TreeType): TreeType = { 
var curPlan = plan 
batches.foreach { batch => 
val batchStartPlan = curPlan 
var iteration = 1 
var lastPlan = curPlan 
var continue = true 
while (continue) { 
curPlan = batch.rules.foldLeft(curPlan) { 
case (plan, rule) => 
val result = rule(plan) 
if (!result.fastEquals(plan)) { 


logTrace ( 
sum 
|=== Applying Rule ${rule.ruleName} === 
|${sideBySide(plan.treeString, result.treeString) .mkString("\n") } 
mw stripMargin) 
result 


} 
iteration += 1 
if (iteration > batch.strategy.maxIterations) { 
if (iteration != 2) { 
logInfo(s"Max iterations (${iteration - 1}) reached for batch ${batch.name}") 
} 


continue = false 


i 
if (curPlan.fastEquals(lastPlan)) { 
logTrace ( 
s"Fixed point reached for batch ${batch.name} after ${iteration - 1} iterations.") 
continue = false 
} 
lastPlan = curPlan 
} 
if (!batchStartPlan.fastEquals(curPlan)) { 
logDebug ( 
|=== Result of Batch ${batch.name} === 
|${sideBySide(plan.treeString, curPlan.treeString) .mkString("\n") } 
.StripMargin) 
} else { 
logTrace(s"Batch ${batch.name} has no effect.") 
} 





} 


curPlan 





























RuleExecutor 的 apply 方 法 的 功能 描述 : 通过 遍历 ， 取 出 batches 里 缓存 的 每 个 Batch; 再 遍历 每 个 Batch 中 的 Rule， 按 照 Strategy 指 定 的 次 数 应 用 到 TreeNode。 如 果 给 TreeNode 应 用 Rule 后 的 
TreeNode 与 之 前 相同 ， 会 退出 当前 Batch。 











RuleExecutor 的 继承 体系 ， 如 图 8-9 所 示 。 





RuleExecutor 





(Optimizer 


图 8-9 RuleExecutot 的 继承 体系 


8.6 Analyzer 与 Optimizer 的 设计 与 实现 


Analyzer 将 Unresolved LogicalPlan 与 数据 字典 (catalog) 进行 绑 定 ， 生 成 Resolved LogicalPlan。 


Optimizer 对 Resolved LogicalPlan 进 行 优 化 ， 生 成 Optimized LogicalPlan。 














在 SQLContext 中 使 用 Analyzer 与 Optimizer 的 唯一 入 口 是 如 下 代码 中 的 executePlan。 























protected[sql] def executePlan (Plan: LogicalPlan): this.QueryExecution = 
new this.QueryExecution { val logical = plan } 





executePlan 方 法 创建 QueryExecution 的 匿名 实现 类 实例 ，QueryExecution 中 通过 懒 执行 的 方式 使 用 Analyzer、Optimizer、SparkPlanner、prepareForExecution， 见 代码 清单 8-21。 


代码 清单 8-21 SQLContext 中 QueryExecution 的 实现 








@DeveloperApi 
protected abstract class QueryExecution { 
def logical: LogicalPlan 
lazy val analyzed = ExtractPythonUdfs (analyzer (logical) ) 
lazy val withCachedData = useCachedData (analyzed) 
lazy val optimizedPlan = optimizer (withCachedData) 
lazy val sparkPlan = { 
SparkPlan.currentContext.set (self) 
planner (optimizedPlan) .next () 
} 
lazy val executedPlan: SparkPlan = prepareForExecution (sparkPlan) 
lazy val toRdd: RDD[Row] = executedPlan.execute () 
protected def stringOrError[A] (f: => A): String = 
try f.toString catch { case e: Throwable => e.toString } 
def simpleString: String = 
s"""== Physical Plan == 
|${stringOrError (executedPlan) } 
-StripMargin.trim 
overri def toString: String = 
s"""== Parsed Logical Plan == 
${stringOrError (logical) } 
== Analyzed Logical Plan == 
${stringOrError (analyzed) } 
== Optimized Logical Plan == 
${stringOrError (optimizedPlan) } 
== Physical Plan == 
${stringOrError (executedPlan) } 
Code Generation: ${stringOrError (executedPlan.codegenEnabled) } 
== RDD = 
.StripMargin.trim 























toRdd 也 是 懒 执行 的 ， 真 正 促使 它 发 生 转 换 的 地 方 是 在 任务 提交 阶段 执行 代码 清单 5-19 中 的 runJob 方 法 时 ， 首 先 调用 RDD 的 partitions 触 发 的 。 根 据 代 码 清单 5-11、 代 码 清单 5-12 及 代码 清单 5-13， 我 



































们 知道 最 终 会 调用 SchemaRDD 的 dependencies 方 法 。 实 际 是 代码 清单 5-28 中 RDD 的 dependencies 方 法 ， 那 么 最 终 调用 SchemaRDD 的 getDependencies 方 法 ， 代 码 如 下 。 

















override protected def getDependencies: Seq[Dependency[_]] = { 
schema // Force reification of the schema so it is available on executors. 
List (new OneToOneDependency (queryExecution.toRdd) ) 




















调用 QueryExecution 的 toRdd 方 法 最 终 引 发 了 Analyzer、Optimizer 将 一 系列 Rule 应 用 到 LogicalPlan。 





























QueryExecution 中 调用 的 useCachedData 方 法 实际 是 与 SQLContext 同 在 包 org.apache.spark.sq| 下 的 CacheManager 的 useCachedData， 用 于 将 LogicalPlan 的 树 段 替换 为 缓存 中 的 ， 见 代码 清单 8- 


























22。 树 段 蔡 换 就 是 用 TreeNode 的 transformDown 方 法 来 完成 的 。 








代码 清单 8-22 CacheManager 的 useCachedData 方 法 


private[sql] def useCachedData (plan: LogicalPlan): LogicalPlan = { 
plan transformDown { 
case currentFragment => 
lookupCachedData (currentFragment) 
.map (_.cachedRepresentation.withOutput (currentFragment . output) ) 
.getOrElse (currentFragment) 
} 
} 
private[sql] def lookupCachedData (plan: LogicalPlan): Option[CachedData] = readLock { 
cachedData.find(cd => plan.sameResult (cd.plan) ) 
} 








8.6.1 ”语法 分 析 器 Analyzer 








QueryExecution 中 的 analyzer (logical) 语句 实际 调用 了 Analyzer 的 父 类 RuleExecutor 的 apply 方 法 来 应 用 自己 的 batches， 见 代码 清单 8-23。Analyzer 的 FixedPoint 目 前 是 
出 将 来 会 用 参数 传递 值 。 通 过 继承 Analyzer 并 且 覆 盖 extendedRules 用 于 提供 额外 的 Rule。 






































代码 清单 8-23 ”Analyzer 的 实现 














固定 的 100， 从 其 


注释 看 








val fixedPoint = FixedPoint (100) 
val extendedRules: Seq[Rule[LogicalPlan]] = Nil 
lazy val batches: Seq[Batch] = Seq( 

Batch ("MultiInstanceRelations", Once, 
NewRelationInstances) , 

Batch ("Resolution", fixedPoint, 
ResolveReferences :: 
ResolveRelations :: 
ResolveSortReferences :: 
NewRelationInstances :: 
ImplicitGenerate :: 

StarExpansion :: 

ResolveFunctions :: 
GlobalAggregates :: 
UnresolvedHavingClauseAttributes :: 
TrimGroupingAliases :: 
typeCoercionRules ++ 

extendedRules : *), 

Batch ("Check Analysis", Once, 
CheckResolution, 

CheckAggregation) , 
Batch ("AnalysisOperators", fixedPoint, 


EliminateAnalysisOperators) 





Analyzer 中 已 经 内 置 了 很 多 Rule， 包 括 : ResolveReferences, ResolveRelations, StarEx-pansion$, 4itAnalyzerf9#0L, Unresolved LogicalPlan 已 经 成 为 Resolved LogicalPlan, 








以 ResolveRelations 为 例 来 大 臻 了解 Analyzer。ResolveRelations 用 来 把 LogicalPlan 中 匹配 UnresolvedRelation 的 部 分 ， 蔡 换 为 字典 表 Catalog 中 注册 的 LogicalPlan， 见 代码 清单 8-24。 

















代码 清单 8-24 Analyzer 中 ResolveRelations 的 apply 方 法 





object ResolveRelations extends Rule[LogicalPlan] { 
def apply(plan: LogicalPlan): LogicalPlan = plan transform { 
case i @ InsertIntoTable (UnresolvedRelation(tableIdentifier, alias), _, _, _) => 
i.copy ( 
table = EliminateAnalysisOperators (catalog. lookupRelation (table-Identifier, alias) )) 
case UnresolvedRelation(tableIdentifier, alias) => 
catalog.lookupRelation(tableIdentifier, alias) 





8.6.2 ”优化 器 Optimizer 











Optimizer 与 Analyzer 一 样 ， 也 是 通过 父 类 RuleExecutor 的 apply 方 法 来 应 用 自己 的 batches，Optimizer 的 默认 实现 是 DefaultOptimizer， 见 代码 清单 8-25。DefaultOptimizer 也 内 置 了 很 多 的 Rule， 
比如 NullPropagation、ConstantFolding 等 。 经 过 Optimizer 对 Resolved LogicalPlan 的 优化 ， 生 成 Optimized LogicalPlan。 

















代码 清单 8-25 Optimizer 的 实现 





abstract class Optimizer extends RuleExecutor[LogicalPlan] 
object DefaultOptimizer extends Optimizer { 
val batches = 

Batch ("Combine Limits", FixedPoint (100), 
CombineLimits) :: 

Batch ("ConstantFolding", FixedPoint (100), 
NullPropagation, 
ConstantFolding, 
LikeSimplification, 
BooleanSimplification, 
SimplifyFilters, 
SimplifyCasts, 
Simp1ifyCaseConversionExpressions, 
OptimizeIn) 

Batch ("Decimal Optimizations", FixedPoint (100), 
DecimalAggregates) 

Batch ("Filter Pushdown", FixedPoint (100), 
UnionPushdown, 
CombineFilters, 
PushPredicateThroughProject, 
PushPredicateThroughJoin, 
ColumnPruning) :: Nil 





无 论 是 Analyzer 中 内 置 的 Rule， 还 是 DefaultOptimizer 内 置 的 Rule， 将 Rule 应 用 到 LogicalPlan 都 是 通过 TreeNode 里 的 transform 系 列 函数 。 以 SimplifyFilters 为 例 ， 它 所 做 的 优化 包括 : 
“ 如 果 过 滤 条 件 总 是 等 于 tue， 则 删除 它 ， 即 此 过 滤 条 件 不 起 作用 。 
“如果 过 滤 条 件 总 是 等 于 null 或 者 全 se， 将 输入 替换 为 空 的 telation， 即 将 输入 全 部 滤 除 。 

从 SimplifyFilters 的 实现 不 难看 出 ， 它 正 是 将 自身 规则 作为 参数 传递 给 transform 函 数 的 ， 见 代码 清单 8-26。 


代码 清单 8-26 Optimizer 中 SimplifyFilters 的 实现 


object SimplifyFilters extends Rule[LogicalPlan] { 
def apply(plan: LogicalPlan): LogicalPlan = plan transform { 
case Filter (Literal (true, BooleanType), child) => child 
case Filter (Literal (null, _), child) => LocalRelation(child.output, data = Seq.empty) 


case Filter (Literal (false, BooleanType), child) => LocalRelation(child.output, data = Seq.empty) 





8.7 ”生成 物理 执行 计划 





经 过 了 sqlParser、Analyzer、Optimizer 的 处 理 ， 生 成 的 逻辑 执行 计划 无 法 被 当做 一 般 的 Job 来 处 理 ， 为 了 能 够 将 逻辑 执行 计划 按照 其 他 Job 一 样 对 待 ， 需 要 将 逻辑 执行 计划 转变 为 物理 执行 计划 了 。 


物理 执行 计划 SparkPlan 











首先 使 用 SparkPlanner， 实 际 使 用 QueryPlanner 的 apply 方 法 ， 见 代码 清单 8-27。 





代码 清单 8-27 QueryPlanner 的 apply 方 法 





def apply(plan: LogicalPlan): Iterator[PhysicalPlan] = { 
val iter = strategies.view.flatMap(_(plan)) .toIterator 
assert (iter.hasNext, s"No plan for $plan") 
iter 








SparkPlanner 中 strategies 的 定义 见 代码 清单 8-28。 


代码 清单 8-28 SparkPlanner 中 strategies 的 定义 





def strategies: Seq[Strategy] = 
extraStrategies ++ ( 
CommandStrategy (self) 
DataSourceStrategy :: 
TakeOrdered :: 
HashAggregation :: 
LeftSemiJoin :: 
HashJoin :: 
InMemoryScans :: 
ParquetOperations :: 


BasicOperators :: 
CartesianProduct :: 
BroadcastNestedLoopJoin :: Nil) 





























每 个 Strategy 都 实现 了 apply 方 法 。 这 些 Strategy 中 ， 最 常用 的 要 算 BasicOperators 了 ， 其 实现 见 代 码 清单 8-29。 可 以 看 到 它 对 最 常用 的 SQL 关键 字 都 做 了 处 理 。 每 个 处 理 的 分 支 ， 都 会 先 调 


























planLater 方 法 ，planLater 方 法 给 child 节 点 的 LogicalPlan 应 用 SparkPlanner， 见 代码 清单 8-30。 于 是 就 形成 了 迭代 处 理 的 过 程 ， 最 终 实 现 将 整 棵 LogicalPlan 树 使 用 SparkPlanner 来 完成 转换 。 











代码 清单 8-29 SparkStrategies 中 BasicOperators 的 实现 





object BasicOperators extends Strategy { 
def numPartitions = self.numPartitions 
def apply(plan: LogicalPlan): Seq[SparkPlan] = plan match { 
case logical.Distinct (child) => 
execution.Distinct (partial = false, 


execution.Distinct (partial = true, planLater(child))) :: Nil 
case logical.Sort (sortExprs, child) if sqlContext.externalSortEnabled => 
execution.ExternalSort (sortExprs, global = true, planLater(child)):: Nil 
case logical.Sort (sortExprs, child) => 
execution.Sort (sortExprs, global = true, planLater(child)):: Nil 
case logical.SortPartitions (sortExprs, child) => 
execution.Sort (sortExprs, global = false, planLater(child)) :: Nil 
case logical.Project (projectList, child) => 
execution.Project (projectList, planLater(child)) :: Nil 
case logical.Filter(condition, child) => 
execution.Filter(condition, planLater(child)) :: Nil 
case logical.Aggregate (group, agg, child) => 
execution.Aggregate (partial = false, group, agg, planLater(child)) :: Nil 
case logical.Sample (fraction, withReplacement, seed, child) => 
execution.Sample (fraction, withReplacement, seed, planLater(child)) :: Nil 


case SparkLogicalPlan(alreadyPlanned) => alreadyPlanned :: Nil 
case logical.LocalRelation(output, data) => 
val nPartitions = if (data.isEmpty) 1 else numPartitions 


PhysicalRDD ( 
output, 
RDDConversions .productToRowRdd (sparkContext.parallelize (data, nPartitions), 
StructType.fromAttributes (output))) :: Nil 

case logical.Limit (IntegerLiteral (limit), child) => 

execution.Limit (limit, planLater(child)) :: Nil 
case Unions (unionChildren) => 

execution.Union (unionChildren.map(planLater)) :: Nil 
case logical.Except (left, right) => 

execution.Except (planLater (left), planLater(right)) :: Nil 
case logical.Intersect (left, right) => 

execution. Intersect (planLater (left), planLater(right)) :: Nil 
case logical.Generate (generator, join, outer, _, child) => 

execution.Generate (generator, join = join, outer = outer, planLater(child)) :: Nil 
case logical.NoRelation => 

execution.PhysicalRDD(Nil, singleRowRdd) :: Nil 
case logical.Repartition (expressions, child) => 

execution.Exchange (HashPartitioning (expressions, numPartitions), planLater(child)) :: Nil 
case e @ EvaluatePython(udf, child, _) => 

BatchPythonEvaluation(udf, e.output, planLater(child)) :: Nil 
case LogicalRDD(output, rdd) => PhysicalRDD(output, rdd) :: Nil 
case _ => Nil 





代码 清单 8-30 QueryPlanner 的 planLater 方 法 


protected def PlanLater (plan: LogicalPlan) = apply(plan) .next () 





BasicOperators 方 法 实际 就 是 将 logical.XXX 转 换 为 execution.XXX， 将 LogicalRDD 转 换 为 PhysicalRDD。 


prepareForExecution 在 执行 前 做 准备 工作 ， 它 的 原理 与 Analyzer 和 Optimizer 一 样 ， 不 再 敖 述 。 


8.8 执行 物理 执行 计划 














经 过 分 析 、 优 化 、 逻 辑 计 划 转 换 为 物理 计划 的 懒 执 行 ， 最 终 调 用 SparkPlan 的 execute 方 法 执行 物理 计划 。 以 execution.Project 为 例 ， 其 execute 方 法 见 代 码 清单 8-31。 











代码 清单 8-31 Project 及 其 excute 方 法 








@DeveloperApi 
case class Project (projectList: Seq[NamedExpression], child: SparkPlan) extends UnaryNode { 
override def output = projectList.map(_.toAttribute) 
@transient lazy val buildProjection = newMutableProjection(projectList, child.output) 
def execute() = child.execute().mapPartitions { iter => 
val resuableProjection = buildProjection () 
iter.map (resuableProjection) 








Project 的 execute 方 法 的 执行 步 又 : 








1) 调用 child 的 execute 方 法 ， 以 保证 将 要 投影 的 输入 数据 已 经 经 过 处 理 。 























2) 调用 SparkPlan 的 newMutableProjection 来 处 理 其 投影 操作 ，newMutableProjection 的 实现 见 代码 清单 8-32。 


代码 清单 8-32 SparkPlan 的 newMutableProjection 方 法 





protected def newMutableProjection ( 
expressions: Seq[Expression], 
inputSchema: Seq[Attribute]): () => MutableProjection = { 
log. debug ( 
s"Creating MutableProj: $expressions, inputSchema: $inputSchema, codegen: $codegenEnabled") 
if (codegenEnabled) { 
GenerateMutableProjection (expressions, inputSchema) 
} else { 
() => new InterpretedMutableProjection (expressions, inputSchema) 


} 




















newMutableProjection 上 默认 情况 下 使 用 InterpretedMutableProjection 处 理 投影 ， 其 实现 见 代码 清单 8-33。BindReferences.bindReference 再 次 使 























了 transform 方 法 ， 


如 将 List (name#1) 蔡 换 为 List (input[1]) 。 最 终 的 投影 由 InterpretedMutableProjection 的 apply 方 法 来 完成 。BindReferences.bindReference 的 实现 见 代码 清单 8-34。 


代码 清单 8-33 ”Projection.scala 中 的 InterpretedMutableProjection 实 现 


























于 给 表达 式 绑 定 引 














， 比 





case class InterpretedMutableProjection (expressions: Seq[Expression]) extends MutableProjection { 
def this (expressions: Seq[Expression], inputSchema: Seq[Attribute]) = 
this (expressions .map (BindReferences.bindReference(_, inputSchema) ) ) 
private[this] val exprArray = expressions.toArray T 
private[this] var mutableRow: MutableRow = new GenericMutableRow (exprArray.size) 
def currentValue: Row = mutableRow 
override def target (row: MutableRow): MutableProjection = { 
mutableRow = row 
this 


override def apply(input: Row): Row = { 
var i=0 
while (i < exprArray.length) { 
mutableRow(i) = exprArray (i) .eval (input) 
i +=1 


} 
mutableRow 





代码 清单 8-34 BindReferences bindReference 的 实现 





object BindReferences extends Logging { 
def bindReference[A <: Expression] ( 
expression: A, 
input: Seq[Attribute], 
allowFailures: Boolean = false): A = { 
expression.transform { case a: AttributeReference => 
attachTree(a, "Binding attribute") { 
val ordinal = input.indexWhere (_.exprId == a.exprId) 
if (ordinal == -1) { T 
if (allowFailures) { 
a 
} else { 
sys.error(s"Couldn't find $a in ${input.mkString("[", ",", "]")}") 
} 
} else { 
BoundReference (ordinal, a.dataType, a.nullable) 
} 
} 
}.asInstanceOf[A] // Kind of a hack, but safe. TODO: Tighten return type when possible. 





再 以 execution.Filter 为 例 ， 其 execute 方 法 见 代码 清单 8-35。 


Filtter 的 execute 方 法 的 执行 步骤 如 下 : 








1) 调用 child 的 execute 方 法 ， 以 保证 将 要 过 滤 的 输入 数据 已 经 经 过 处 理 。 























2) 调用 SparkPlan 的 newPredicate 来 处 理 其 过 滤 操 作 ，newPredicate 的 实现 见 代 码 清单 8-36。 


代码 清单 8-35 Filter 及 其 excute 方 法 


@DeveloperApi 
case class Filter(condition: Expression, child: SparkPlan) extends UnaryNode { 
override def output = child.output 
@transient lazy val conditionEvaluator = newPredicate (condition, child.output) 
def execute() = child.execute().mapPartitions { iter => 
iter. filter (conditionEvaluator) 


} 





newpPredicate 默 认 使 用 InterpretedPredicate 处 理 过 滤 ， 其 实现 见 代 码 清单 8-37。Bind-References.bindReference 方 法 在 此 处 将 ( (age#0>=13) && (age#0<=19) ) 转换 为 
[ (input[0]>=13) ， (input[0]<=19) ]。 最 终 的 过 滤 由 InterpretedPredicate 的 第 二 个 apply 方 法 来 完成 。 


代码 清单 8-36 ”SparkPlan 的 newPredicate 方 法 





protected def newPredicate ( 
expression: Expression, inputSchema: Seq[Attribute]): (Row) => Boolean = { 
if (codegenEnabled) { 
GeneratePredicate (expression, inputSchema) 
} else { 
InterpretedPredicate (expression, inputSchema) 


} 





代码 清单 8-37 InterpretedPredicate 的 实现 





object InterpretedPredicate { 
def apply (expression: Expression, inputSchema: Seq[Attribute]): (Row => Boolean) = 
apply (BindReferences.bindReference (expression, inputSchema) ) 
def apply(expression: Expression): (Row => Boolean) = { 
(r: Row) => expression.eval (r) .«asInstanceOf [Boolean] 


} 





execution.Project 和 execution.Filter 都 有 child， 是 不 是 所 有 的 SparkPlan 的 子 类 都 有 child 呢 ? 


当然 也 有 例外 ， 比 如 execution.PhysicalRDD 是 没有 child 的 ， 因 为 execution.PhysicalRDD 一 般 是 作为 最 底层 的 LogicalPlan 节 点 ， 其 代码 实现 如 下 。 














case class PhysicalRDD(output: Seq[Attribute], rdd: RDD[Row]) extends LeafNode { 
override def execute() = rdd 


} 








基于 整个 SparkPlan 的 execute 体 系 ， 就 可 以 保证 先 执行 低层 (孩子 ) 的 SparkPlan 的 转换 动作 ， 然 后 才 执行 当前 SparkPlan 的 转换 动作 ， 最 终 完成 SQL 的 执行 。 


8.9 Hive 








Hive 最 初 是 基于 Hadoop 开 发 的 一 个 对 HDFS 上 的 数据 进行 分 析 与 查询 的 工具 ， 它 可 以 将 结构 化 的 数据 文件 映射 为 一 张 数据 库 表 ， 并 提供 简单 的 SQL 查询 功能 ， 也 可 以 将 SQL 语句 转换 为 MapReduce 任 
务 运行 。Hive 的 学 习 成 本 低 ， 大 大 降低 了 分 析 人 员 对 大 规模 数据 集合 的 分 析 门 槛 。 关 于 Hive 技 术 的 具体 内 容 ， 请 读者 自行 查阅 相关 资料 。 











Spark 中 提供 的 Hive 会 被 转换 为 Spark 中 的 任务 ， 而 不 是 MapReduce 任 务 。 

HiveContext 是 处 理 Hive 的 上 下 文 环境 ，HiveContext 继 承 了 SQLContext， 可 见 Hive 在 架构 上 是 基于 Spark SQL 的 。HiveContext 覆 盖 了 SQLContext 中 的 一 些 实现 ， 包 括 : 
“ Catalog: 由 HiveMetastoreCatalog 替 换 了 SimpleCatalog， 主 要 是 针对 Hive 的 元 数据 缓存 做 了 相应 的 字典 表 实现 。 
. Analyzer: REL EMMA. 
“ SparkPlanner: RES FMR Bo 


- ExtendedHiveQIParser: 代替 SqlParser。 





Hive SQL 的 执行 过 程 与 Spark SQL 的 执行 过 程 类 似 ， 可 以 用 图 8-10 表 示 。 








8.9.1 Hive SQL 语法 解析 器 


HiveContext 覆 盖 了 SQLContext 对 SQL 解析 的 入 口 ，DDL 的 解析 依然 交 给 DDLParser， 但 是 Hive SQL 则 交 由 HiveQI 的 parseSq|I 方 法 处 理 ， 见 代码 清单 8-38。 


de ExtendedHiveQlParser UnresolvedLogicalPlan 
resolvedLogicalPlan 
optimizedLogicalPlan SparkPlan PhysicalPlan 


可 执行 PhysicalPlan prepareForExecution 
SchemaRDD © 


图 8-10 Hive SQL 的 执行 过 程 




















代码 清单 8-38 ”HiveContext 解 析 sq| 的 入 











override def sql(sqlText: String): SchemaRDD = { 
if (dialect == "sql") { 
super. sql (sqlText) 
} else if (dialect == "hivegl") { 
new SchemaRDD(this, ddlParser (sqlText) .getOrElse (HiveQl .parseSql (sqlText) ) ) 
} else { 
sys.error(s"Unsupported SQL dialect: $dialect. Try 'sql' or 'hivegl'") 
} 








HiveQI 的 parseSq| 方 法 使 用 ExtendedHiveQlParser 解 析 Hive SQL， 依 然 由 SparkSQLParser 作 为 代理 ， 见 代码 清单 8-39。 


代码 清单 8-39 ”HiveQI 的 parseSq|I 方 法 





protected val hqlParser = { 
val fallback = new ExtendedHiveQlParser 
new SparkSQLParser (fallback (_)) 
} 
def parseSql(sql: String): LogicalPlan = hqlParser (sql) 











ExtendedHiveQlParser 用 于 扩展 对 Hive SQL 的 解析 ， 其 实现 见 代码 清单 8-40。 





代码 清单 8-40 ”ExtendedHiveQlParser 的 实现 





private[hive] class ExtendedHiveQlParser extends AbstractSparkSQLParser { 
protected implicit def asParser(k: Keyword): Parser[String] = 
lexical.allCaseVersions (k.str) .map(x => x : Parser[String]).reduce(_ | _) 
protected val ADD = Keyword ("ADD") 
protected val DFS = Keyword ("DFS") 
protected val FILE = Keyword ("FILE") 
protected val JAR = Keyword ("JAR") 
private val reservedWords = 
this 
«getClass 
.getMethods 
.filter (_ .getReturnType == classOf [Keyword]) 
.map (_ .invoke (this) .asInstanceOf [Keyword] .str) 
override val lexical = new SqlLexical (reservedWords) 











我 们 首先 看 看 ExtendedHiveQlParser 的 start 定 义 ， 可 见解 析 的 SQL 匹配 需要 ADD、DFS、FILE、JAR 等 语法 ， 见 代码 清单 8-41。 














代码 清单 8-41 ExtendedHiveQlParser 的 start 定 义 





protected lazy val start: Parser[LogicalPlan] = dfs | addJar | addFile | hiveQl 
protected lazy val hiveQl: Parser[LogicalPlan] = 


restInput ^^ { 
case statement => HiveQl.createPlan (statement .trim) 
} 


protected lazy val dfs: Parser[LogicalPlan] = 


DFS ~> wholeInput ^^ { 
case command => NativeCommand (command. trim) 
} 


private lazy val addFile: Parser[LogicalPlan] = 


ADD ~ FILE ~> restInput ^^ { 
case input => AddFile(input.trim) 
} 


private lazy val addJar: Parser[LogicalPlan] = 


ADD ~ JAR ~> restInput ^^ { 
case input => AddJar(input.trim) 
} 





8.9.2 Hive SQL 元 数据 分 析 


为 了 分 析 Hive SQL 的 元 数据 ， 匿 名 实现 的 Analyzer 覆 盖 了 extendedRules， 提 供 额外 的 Rule， 见 代码 清单 8-42。 








代码 清单 8-42 ”HiveContext 的 analyzer 定 义 





@transient 
override protected[sql] lazy val analyzer = 


new Analyzer(catalog, functionRegistry, caseSensitive = false) { 
override val extendedRules = 
catalog.CreateTables :: 
catalog.PreInsertionCasts :: 
ExtractPythonUdfs :: 
Nil 





8.9.3 Hive SQL 物理 执行 计划 





为 生成 Hive SQL 的 物理 执行 计划 ， 也 通过 匿名 实现 的 方式 ， 扩 展 SparkPlanner 中 的 执行 策略 ， 见 代码 清单 8-43。 


代码 清单 8-43 ”HiveContext 的 hivePlanner 定 义 





@transient 
val hivePlanner = new SparkPlanner with HiveStrategies { 


val hiveContext = self 
override def strategies: Seq[Strategy] = extraStrategies ++ Seq( 
DataSourceStrategy, 
CommandStrategy (self), 
HiveCommandStrategy (self), 
TakeOrdered, 
ParquetOperations, 
InMemoryScans, 
ParquetConversion, // Must be before HiveTableScans 
HiveTableScans, 
DataSinks, 
Scripts, 
HashAggregation, 
LeftSemiJoin, 
Hashdoin, 
BasicOperators, 
CartesianProduct, 
BroadcastNestedLoopJoin 





8.10 ”应 用 举例 : JavaSparkSQL 


Be 




















Spark 的 源码 自 带 了 使 用 Spark SQL 的 例子 JavasparkSQL， 我 们 就 用 它 来 了 解 Spark SQL 功能 的 使 用 。JavaSsparkSQL 中 使 





























构建 好 的 JavaSsparkContext 作 为 参数 构建 javaSQLContext， 代 码 实 现 如 





SparkConf sparkConf = new SparkConf () .setAppName ("JavaSparkSQL") .setMaster ("local"); 
JavaSparkContext ctx = new JavaSparkContext (sparkConf) ; 
JavaSQLContext sqlCtx = new JavaSQLContext (ctx) 7 














其 实质 是 使 用 SparkContext 作 为 参数 构建 SQLContext。 











class JavaSQLContext (val sqlContext: SQLContext) extends UDFRegistration { 
def this (sparkContext: JavaSparkContext) = this (new SQLContext (spark-Context.sc) ) 
































JavaSparkSQL 接 着 调用 SparkContext.textFile 加 载 文本 文件 生成 HadoopRDD， 然 后 调用 map 方 法 生成 MappedRDD， 见 代码 清单 8-44。 


代码 清单 8-44 JavaSparkSQL 例 子 





JavaRDD<Person> people = ctx.textFile("src/main/resources/people.txt") .map ( 


new Function<String, Person>() { 
@Override 
public Person call(String line) { 
String[] parts = line.split(","); 
Person person = new Person(); 
person.setName (parts [0]); 
person.setAge (Integer .parseInt (parts[1].trim())); 
return person; 
} 
he 





people.txt 文 本 文件 中 的 内 容 如 下 : 





Michael, 29 
Andy, 30 
Justin, 19 





JavaSparkSQL 接 着 将 schema 应 用 到 RDD 和 Person.class， 代 码 如 下 。 








JavaSchemaRDD schemaPeople = sqlCtx.applySchema (people, Person.class) ; 








applySchema 方 法 ( 见 代码 清单 8-45) 主要 处 理 以 下 工作 : 














1) 调用 getSchema 获 取 beanClass 的 schema 信 息 ， 即 通过 Java 内 省 机 制 获 得 JavaBean， 遍 历 JavaBean， 返 回 AttributeReference 的 序列 ， 见 代码 清单 8-46。AttributeReference 是 
数据 类 型 、 是 否 允许 空 的 三 元 组 。 

















2) 调用 MappedRDD 的 mapPartitions 构 造 MapPartitionsRDD。mappPartitions 的 实现 见 代码 清单 8-47。 








3) 创建 LogicalRDD 并 封装 为 JavaSchemaRDD，JavaSchemaRDD 实 际 持 有 了 SchemaRDD， 并 将 SchemaRDD 封 装 为 MappedRDD， 见 代码 清单 8-48 和 代码 清香 


代码 清单 8-45 JavaSQLContext 的 applySchema 方 法 








属性 名 、Spark 





def applySchema(rdd: JavaRDD[_], beanClass: Class[_]): JavaSchemaRDD = { 

val attributeSeq = getSchema (beanClass) T 

val className = beanClass.getName 

val rowRdd = rdd.rdd.mapPartitions { iter => 
// BeanInfo is not serializable so we must rediscover it remotely for each partition. 
val localBeanInfo = Introspector.getBeanInfo ( 

Class.forName (className, true, Utils.getContextOrSparkClassLoader) ) 

val extractors = 


localBeanInfo.getPropertyDescriptors.filterNot (_.getName == "class") .map(_.getReadMethod) 


iter.map { row => 
new GenericRow ( 
extractors.zip(attributeSeq) .map { case (e, attr) => 
DataTypeConversions.convertJavaToCatalyst (e.invoke (row), attr.dataType) 
}. toArray [Any] 
): ScalaRow 
} 


} 
new JavaSchemaRDD(sqlContext, LogicalRDD(attributeSeq, rowRdd) (sqlContext) ) 





代码 清单 8-46 JavaSQLContext 的 getSchema 方 法 





protected def getSchema (beanClass: Class[_]): Seq[AttributeReference] = { 
val beanInfo = Introspector.getBeanInfo (beanClass) 
val fields = beanInfo.getPropertyDescriptors.filterNot (_.getName == "class") 


fields.map { property => 
val (dataType, nullable) = property.getPropertyType match { 


case c: Class[_] if c.isAnnotationPresent (classOf[SQLUserDefinedType]) => 
(c.getAnnotation (classOf [SQLUserDefinedType] ) .udt () .newInstance(), true) 

case c: Class[_] if c == classOf[java.lang.String] => 
(org.apache.spark.sql.StringType, true) 

case c: Class if c == java.lang.Short.TYPE => 
(org.apache.spark.sql.ShortType, false) 

case c: Class[_] if c == java.lang.Integer.TYPE => 
(org.apache.spark.sql.IntegerType, false) 

case c: Class if c == java.lang.Long.TYPE => 


(org.apache.spark.sql.LongType, false) 

case c: Class[_] if c == java.lang.Double.TYPE => 
(org.apache.spark.sql.DoubleType, false) 

case c: Class[_] if c == java.lang.Byte.TYPE => 
(org.apache.spark.sql.ByteType, false) 








case c: Class[_] if c == java.lang.Float.TYPE => 
(org.apache.spark.sql.FloatType, false) 
case c: Class if c == java.lang.Boolean.TYPE => 


(org.apache.spark.sql.BooleanType, false) 
// 忽略 部 分 代码 
} 
AttributeReference (property.getName, dataType, nullable) () 





代码 清单 8-47 ”RDD 的 mapPartitions 方 法 





def mapPartitions[U: ClassTag] ( 
f: Iterator[T] => Iterator[U], preservesPartitioning: Boolean = false): RDD[U] = { 
val func = (context: TaskContext, index: Int, iter: Iterator[T]) => f (iter) 
new MapPartitionsRDD(this, sc.clean(func), preservesPartitioning) 





代码 清单 8-48 ”LogicalRDD 的 实现 





case class LogicalRDD(output: Seq[Attribute], rdd: RDD[Row]) (sqlContext: SQLContext) 
extends LogicalPlan with MultiInstanceRelation { 
def children = Nil 
def newInstance() = 


LogicalRDD (output .map(_.newInstance()), rdd) (sqlContext) .asInstanceOf [this.type] 
override def sameResult (plan: LogicalPlan) = plan match { 

case LogicalRDD(_, otherRDD) => rdd.id == otherRDD.id 

case _ => false 





代码 清单 8-49 JavaschemaRDD 的 实现 





class JavaSchemaRDD ( 
@transient val sqlContext: SQLContext, 
@transient val baseLogicalPlan: LogicalPlan) 
extends JavaRDDLike[Row, JavaRDD[Row] ] 
with SchemaRDDLike { 
private[sql] val baseSchemaRDD = new SchemaRDD(sqlContext, logicalPlan) 
val schemaRDD: SchemaRDD = baseSchemaRDD 
override val classTag = scala.reflect.classTag [Row] 
override def wrapRDD(rdd: RDD[Row]): JavaRDD[Row] = JavaRDD.fromRDD (rdd) 
val rdd = baseSchemaRDD.map (new Row (_)) 





Oze 


LogicalRDD 继 承 自 LogicalPlan。 


JavaSparkSQL 接 着 注册 临时 表 people， 代 码 如 下 。 





schemaPeople.registerTempTable ("people") ; 





registerTempTable 方 法 ， 见 代码 清单 8-50。 


代码 清单 8-50 SchemaRDDLike 的 registerTempTable 方 法 





def registerTempTable (tableName: String): Unit = { 
sqlContext .registerRDDAsTable (baseSchemaRDD, tableName) 
} 





这 里 用 Catalog 来 注册 表 ， 给 rdd.queryExecution.logical 注 册 临 时 表 ， 见 代码 清单 8-51。 


代码 清单 8-51 SQLContext 的 registerRDDAsTable 方 法 





def registerRDDAsTable(rdd: SchemaRDD, tableName: String): Unit = { 
catalog. registerTable (Seq(tableName), rdd.queryExecution. logical) 
i 





queryExecution 是 通过 懒 执行 方式 创建 的 QueryExecution， 代 码 如 下 。 





@transient 
@DeveloperApi 
lazy val queryExecution = sqlContext.executePlan (baseLogicalPlan) 





sqlContext.executePlan 已 在 8.6 节 详细 介绍 ， 由 此 可 知 注册 到 catalog 的 实际 是 applySchema 中 创建 的 LogicalRDD。 





回 到 JavaSparkSQL， 应 用 程序 接着 构造 SQL， 代 码 如 下 。 





JavaSchemaRDD teenagers = sqlCtx.sql ("SELECT name FROM people WHERE age >= 13 AND age <= 19"); 





JavaSQLContext 的 sq| 方 法 的 实现 见 代码 清单 8-52。 


代码 清单 8-52 ”JavaSQLContext 的 sq 人 方法 





def sql (sqlText: String): JavaSchemaRDD = { 


if (sqlContext.dialect == "sql") { 
new JavaSchemaRDD(sqlContext, sqlContext.parseSql (sqlText) ) 
} else { 


sys.error(s"Unsupported SQL dialect: $sqlContext.dialect") 
} 





此 处 调用 了 8.4.1 节 代码 清单 8-8 中 的 parsesq| 方 法 ， 根 据 之 前 的 源码 分 析 ， 我 们 知道 DDLParser 进 行 解析 时 不 会 匹配 ， 只 会 用 SqlParser 解 析 ， 解 析 完成 ， 返 回 的 LogicalPlan 的 实际 类 型 是 Project， 最 
后 将 sqlContext 和 Project 封 装 为 JavaSchemaRDD。 此 时 ，Project 的 projectList 只 包括 name，Project 的 儿子 节点 是 Filter; Filter 的 condition 等 于 ( (age>=13) && ('age<=19) ) ，Filter 的 儿子 节 
点 是 UnresolvedRelation，UnresolvedRelation 的 tableldentifier 只 包括 people， 这 说 明 SQL 查 询 的 relation 还 没有 找到 ， 只 知道 relation 的 表 名 是 people。 此 时 ，debug 视 图 如 图 8-11 所 示 。 





























Name Value 


> af baseLogicalPlan Project (id=252) 
> pf baseSchemaRDD SchemaRDD (id=268) 
m bitmap$trans$0 false 


af classTag null 
> af lonicalPlan Proiect fid=257) 
"Project [ name] 
"Filter (('age >= 13) && (‘age <= 19)) 
‘UnresolvedRelation [people], None| 

















图 8-11 Unresolved LogicalPlan 的 debug 视 图 














根据 8.6 节 的 分 析 ， 我 们 知道 在 RDD 转 换 的 过 程 中 ， 通 过 Analyzer 中 的 规则 Resolve-Relations 将 UnresolvedRelation 蔡 换 为 LogicalRDD。 








此 时 Project 的 样子 如 图 8-12 所 示 。 








Value 

SQLContext$SparkPlanner (ld=99) 
Project (id=100) 
Iterator$$anon$13 (id=121) 


Project [name#1] 
Filter ((age#@ >= 13) && (age#@ <= 19)) 
LogicalRDD [age#@,name#1], MapPartitionsRDD[3] at mapPartitions at JavaSQLContext.scala:162 





图 8-12 Resolved LogicalPlan 的 debug 视 图 


根据 8.7.1 节 的 分 析 ， 我 们 知道 LogicalRDD (output, rdd) 会 被 转换 为 PhysicalRDD (output, rdd) ; logical.Filter 被 转换 为 execution.Filter; logical.Project 被 转换 为 execution.Project。 





此 时 Project 的 样子 如 图 8-13 所 示 。 








[ 





Value 
optimizedPlan Project (id=100) 
sparkPlan Project (id=289) 
toRdd null 


withCachedData Project (id=100) 


Project [name#1] 
Filter ((age#@ >= 13) && (age#@ <= 19)) 
PhysikalRDD [age#@,name#1], MapPartitionsRDD[3] at mapPartitions at JavaSQLContext.scala:102 








图 8-13 PhysicalPlan 的 debug 视 




















回 到 JavaSparkSQL， 将 JavaSschemaRDD 转 换 为 MappedRDD， 调 用 collect 方 法 运行 任务 ， 见 代码 清单 8-53。 





代码 清单 8-53 ”JavaSparkSQL 调 用 collect 的 代码 





List<String> teenagerNames = teenagers.map (new Function<Row, String>() { 


QOverride 
public String call (Row row) { 
return "Name: " + row.getString(0); 
} 

}) «collect (); 

















根据 第 6 章 的 知识 ， 我 们 知道 在 迭代 计算 过 程 中 会 调用 到 SchemaRDD 的 compute 方 法 ， 见 代码 清单 8-54。 


代码 清单 8-54 SchemaRDD 的 compute 方 法 





override def compute(split: Partition, context: TaskContext): Iterator[Row] = 
firstParent [Row] .compute (split, context) .map(ScalaReflection.convertRowToScala(_, this.schema) ) 





在 MapPartitionsRDD 的 compute 方 法 中 ， 执 行 了 函数 f， 见 代码 清单 8-55。 





代码 清单 8-55 MapPartitionsRDD 的 compute 方 法 





override def compute(split: Partition, context: TaskContext) = 
f (context, split.index, firstParent[T].iterator(split, context) ) 














整个 DAG 中 一 共有 3 个 MapPartitionsRDD， 似 乎 只 感觉 到 代码 清单 8-45 中 调用 mapPar-titions 产 生 的 MapPartitionsRDD。 人 怎么 还 会 多 出 两 个 呢 ? 这 两 个 分 别 是 8.8 节 中 介绍 的 Project 中 的 execute 方 
法 调用 mapPartitions 以 及 Filter 的 execute 方 法 调用 mapPartitions 产 生 的 ， 见 代码 清单 8-31 和 代码 清单 8-35。 这 两 个 偏 函数 分 别 用 于 投影 和 条 件 筛选 操作 。 而 代码 清单 8-42 中 的 偏 函数 用 于 将 记录 转变 为 


GenericRow。 




























































































根据 第 5 章 的 内 容 知道 会 回调 代码 清单 8-44 中 的 函数 Function， 以 及 回调 代码 清单 8-53 中 的 Function。 最 终 输出 结果 如 下 : 








Name: Justin 





8.11 JMS 





Spark 增 加 对 SQL 的 支持 是 市 场 决定 的 ， 这 必然 吸引 一 大 批 熟悉 SQL 的 用 户 使 用 Spark。 关 系 型 数据 库 历史 悠久， 对 于 SQL 的 处 理 机 制 相当 成 熟 ， 因 此 Spark SQL 对 于 SQL 的 解析 处 理 过 程 并 没有 什么 新 
奇 之 处 。 此 外 ，Spark 还 用 类 似 的 方式 实现 了 对 Hive 的 支持 ， 也 吸引 了 很 多 熟练 操作 Hadoop 的 工程 师 。 就 笔者 日 常 所 用 的 大 数据 而 言 ，SQL 无 疑 是 最 常用 的 场景 。 本 章 最 后 还 以 一 个 例子 带 读者 熟悉 Spark 
SQL 从 编码 到 提交 的 整个 过 程 。 
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本 章 导 读 














传统 互联 网 开发 中 ， 经 常会 有 这 样 一 种 需求 : 根据 过 去 一 周 内 的 网 站 浏览 数据 ， 统 计 出 pv、uv 最 高 的 页 面 用 报表 或 图 表 展 示 。 在 过 去 ， 这 样 一 种 基本 又 常见 的 需求 总 是 先 将 数据 存储 到 日 志 或 者 数据 库 
中 ， 然 后 每 天 由 一 个 定时 任务 进行 统计 计算 后 再 存储 到 数据 库 中 ， 供 报表 模块 查询 。 用 户 想 要 看 到 过 去 一 周 的 数据 ， 必 须要 等 到 第 二 天 。 现 在 很 多 业务 场景 中 ， 越 来 越 多 的 用 户 希 望 实时 看 到 过 去 1 小 时 、10 
分 钟 甚至 10 秒 内 的 统计 数据 ， 传 统 的 互联 网 计算 方式 显然 无 法 满足 。Hadoop 虽 然 也 拥有 强大 的 离线 计算 能 力 ， 但 由 于 其 实时 性 差 ， 因 此 也 无 法 满足 这 类 需求 。 





于 是 Storm、Spark 等 一 系列 适用 于 流 式 数据 的 实时 处 理 系统 诞生 了 。 本 章 将 围绕 Spatk Streaming， 给 大 家 介绍 大 数据 最 有 魅力 的 应 用 之 一 流 式 计算 。 


9.1 Spark Streaming 总 体 设计 





Spark Streaming 类 似 于 Apache Storm。 根 据 Spark 官 方 文档 介绍 ，Spark Streaming 具 有 高 吞吐 量 和 容错 能 力 强 这 两 个 特点 。Spark Streaming 支 持 的 数据 输入 源 很 多 ， 例 如 Kafka、Flume、 
Twitter、MQTT、ZeroMQ、Kinesis 和 简单 的 TCP 套 接 字 等 。 数 据 输 入 后 可 以 用 Spark 的 高 度 抽象 原 语 ， 如 map、reduce、join、window 等 进行 运算 。 而 结果 也 能 保存 在 很 多 地 方 ， 如 HDFS、 数 据 库 等 。 
另外 Spark Streaming 也 能 和 MLlib (机 器 学 习 ) 以 及 Graphx 完 美 融合 。Spark Streaming 的 输入 与 输出 可 以 用 图 9-1 来 表示 。 


| Kafka | N 


| Flume | K | 
orses | | Spar : | Databases _ 
| Kinesis — Streaming 


| Twitter | 


















































9-1 Spark Streaming 的 输入 与 输出 





. 流 式 计算 的 总 体 思路 











按照 传统 统计 工具 的 做 法 ， 应 当先 将 数据 存储 至 数据 库 中 ， 然 后 再 进行 计算 。 我 们 知道 如 果 按照 这 种 老 办 法 是 无 法 实时 处 理 数据 的 ， 那 么 是 不 是 数据 不 存储 到 磁盘 ， 直 接 就 拿 来 计算 呢 ? 这 样 的 确 能 节 
省 磁盘 /O 操 作 ， 并 且 节省 时 间 ， 应 该 可 以 解决 实时 计算 的 问题 吧 。 假 如 数据 在 内 存 ， 还 未 来 得 及 计算 就 因为 宕 机 、 断 电 等 原因 丢失 了 ， 该 怎么 办 ”Spark 在 流 式 计 算 中 引入 了 检查 点 CheckPoint 和 日 志 
以 便 能 从 CheckPoint 和 日 志 中 恢复 中 间 计算 结果 。 




















本 质 上 ， 它 的 工作 原理 如 下 : Spark Streaming 接 收 实时 输入 数据 流 并 将 它们 按 批 次 划分 ， 然 后 交 给 Spark 引 擎 处 理 生成 按照 批 次 划分 的 结果 流 。 它 的 工作 原理 如 图 9-2 所 示 。 
input data batches of batches of 
stream Spark input data Spark processed data 


Streaming |LJL > Engine |L LU O> 


9-2 Spark Streaming T4% JR #2 
































Spark Streaming 提 供 了 表示 连续 数据 流 的 、 高 度 抽象 的 被 称 为 离散 流 的 Dstream。 可 以 使 用 Kafka、Flume 和 Kinesis 这 些 数据 源 产生 的 输入 数据 流 创建 Dstream， 也 可 以 在 其 他 Dstream 上 使 
map、reduce、join、window 等 操作 创建 Dstream。Dstream 本 质 上 表示 RDD 的 序列 。 














2 数据 源 支持 





目前 ，Spark 工 程 中 已 经 提供 了 很 多 数据 源 的 支持 ， 如 表 9-1 所 示 。 


表 9-1 Spark Streaming 目 前 支持 的 数据 源 








数 据 源 Maven Artifact 
Kafka spark-streaming-kafka_2.10 
Flume spark-streaming-flume_2.10 
Kinesis spark-streaming-kinesis-asl_2 
Twitter spark-streaming-twitter_2.10 
ZeroMQ spark-streaming-zeromq 2.10 
MQTT spark-streaming-mqtt_ 2.10 


3.Spark 与 storm 对比 


Storm 是 一 个 流 处 理 系统 ， 那 么 Spark 与 它 有 什么 区 别 ? 








“ 适用 范围 比较 。Storm 目 前 只 适用 于 流 式 数 据 的 处 理 ， 而 Spa 江 除了 可 以 用 于 流 式 计算 ， 其 应 用 范围 要 宽广 得 多 ， 比 如 Spatk 还 可 以 用 于 批 处 理 、SQL 查 询 、Hive SQL、 图 计算 及 机 器 学 习 领域 。 











吞吐 量 比较 。Storm 以 数据 记录 为 最 小 单位 进行 处 理 和 容错 。 由 于 单条 记录 处 理 的 成 本 较 高 ，Spark Streaming 首 先 将 数据 切 分 为 一 定时 间 范 围 (Duration) 的 数据 集 ， 然 后 累积 一 批 (Batch) Duration 数 
据 集 后 单独 启动 一 个 任务 线程 处 理 。 这 种 方式 大 大 提高 了 Spark Streaming 流 式 计算 处 理 的 吞吐 量 。 


“ 容错 比较 。 由 于 Storm 用 与 传统 关系 型 数据 库 相 类 似 的 以 数据 记录 为 单位 容错 ， 所 以 一 条 条 数据 恢复 显然 很 慢 。 而 Spatk Sttreaming 借 助 于 Spatk 核 心 提 供 的 从 DAG 重 新 调度 任务 和 并 行 执行 ， 能 快速 地 完 
成 数据 从 故障 中 恢复 的 工作 。 


9.2 StreamingContext 初 始 化 

















StreamingContextSpark Streaming 的 主要 入 口 ，StreamingContext 的 主 构造 器 见 代 码 清和 





9-1， 有 三 个 参数 ， 分 别 是 : 





+ SparkContext: Spark Streaming 的 最 终 处 理 实际 是 交 给 SpatrkContext 的 。 
- Checkpoint: 检查 点 。 
- Duration: 设 定 streaming 每 个 批 次 的 积累 时 间 。 


代码 清单 9-1 StreamingContext 的 实现 


class StreamingContext private[streaming] ( 


sc_ : SparkContext, 
cp_ : Checkpoint, 
batchDur_ : Duration 


) extends Logging { 
private[streaming] val graph: DStreamGraph = { 
if (isCheckpointPresent) { 
cp_.graph.setContext (this) 
cp_.graph. restoreCheckpointData () 
cp_.graph 
} else { 
assert (batchDur_ != null, "Batch duration for streaming context cannot be 
val newGraph = new DStreamGraph () 
newGraph.setBatchDuration (batchDur_) 
newGraph 
} 
} 
private val nextReceiverInputStreamId = new AtomicInteger (0) 
private[streaming] val scheduler = new JobScheduler (this) 
private[streaming] val waiter = new ContextWaiter 
private[streaming] val progressListener = new StreamingJobProgressListener (this) 
private[streaming] val uiTab: Option[StreamingTab] = 
if (conf.getBoolean ("spark.ui.enabled", true)) { 
Some (new StreamingTab (this) ) 
} else { 
None 


private val streamingSource = new StreamingSource (this) 
SparkEnv.get .metricsSystem. registerSource (streamingSource) 


null") 





从 StreamingContext 的 实现 ， 可 以 了 解 StreamingContext 由 以 下 内 容 构成 : 
“ DstreamGraph: 处 理 Dstream 之 间 的 依赖 关系 。 
- JobScheduler: 定时 生成 Spark Job. 
“ContextWaiter: 用 于 等 待 任务 执行 结束 。 
- StteamingjobProgressListener: 监听 StreamingJob， 用 以 更 新 StreamingTab 的 显示 。 
+ StreamingTab: 流 式 计算 的 标签 页 ， 由 Spark UI 负责 展示 。 


“ StreamingSource: 流 式 计算 的 测量 数据 源 。 


9.3 ”输入 流 接收 器 规范 Receiver 





Receiver 定 义 了 输入 流 接收 器 的 接口 ， 每 种 输入 流 只 需要 定义 实现 了 onstart 和 onstop 两 个 方法 的 实现 类 即 可 。 在 onstart 方 法 中 通常 需要 设 
store (http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/...) 方法 将 收 到 的 数据 存储 到 Spark 内 存 ; 在 onStop 方 法 中 通 






































要 清除 成 员 (如 停止 线程 、 关 闭 socket 等 ) 停止 接收 数据 。 一 个 自 定义 的 Receiver 大 致 如 下 。 


class MyReceiver extends Receiver<String> { 
public MyReceiver (StorageLevel storageLevel) { 
super (storageLevel) ; 


public void onStart() { 


} 
public void onStop() { 


} 








R (如 启动 线程 、 打 开 socket 等 ) 开始 接收 数据 并 且 调 




















ed 
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Spark 已 经 实现 了 很 多 Receiver， 其 继承 关系 如 图 9-3 所 示 。 











MQTTReceiver TwitterRecetver 





图 9-3 Receiver RK A 


我 们 以 MQTTReceiver 为 例 ， 来 看 看 如 何 自 定义 一 个 Receiver， 见 代码 清单 9-2。 其 中 MemoryPersistence 负 责 对 消息 的 持久 化 以 保证 重启 后 不 会 丢失 ; 构造 MqttClient 需 要 三 个 参数 ， 分 别 是 : 
MQTT 服 务 器 提供 的 消息 消费 地 址 brokerUrl、dlientID 和 MemoryPersistence。MqttCallback 用 于 消息 到 达 时 自动 将 消息 存储 到 Spark 内 存 。connect 方 法 用 于 连接 MQTT 服 务 器 ，subscribe 方 法 用 于 订阅 
消息 主题 。 















































代码 清单 9-2 MQTTInputDStream.scala 中 MQTTReceiver 的 实现 





private[streaming] class MQTTReceiver ( 

brokerUrl: String, 
topic: String, 
storageLevel: StorageLevel 

) extends Receiver [String] (storageLevel) { 

def onStop() {} 

def onStart() { 
val persistence = new MemoryPersistence () 
val client = new MqttClient (brokerUrl, MqttClient.generateClientId(), persistence) 
val callback: MqttCallback = new MqttCallback() { 

override def messageArrived(arg0: String, argl: MqttMessage) { 
store (new String (argl.getPayload(),"utf£-8") ) 


override def deliveryComplete(arg0: IMqttDeliveryToken) { 
} 
override def connectionLost (arg0: Throwable) { 
restart ("Connection lost ", arg0) 
} 
} 
client.setCallback (callback) 
client.connect () 
client .subscribe (topic) 





94 ”数据 流 抽 象 DSstream 


Dstream 是 Spark Streaming 中 所 有 数据 流 的 抽象 ， 这 里 对 抽象 类 Dstream 中 定义 的 一 些 主要 方法 进行 介绍 : 











- dependencies: Dstream 依 赖 的 父 级 Dstream 列 表 。 

“compute (validTime: Time) : 在 指定 时 间 生 成 一 个 RDD。 

' isInitialized: Dstream 是 否 已 经 初始 化 。 

+ persist (level: StorageLevel) : 使 用 指定 的 存储 级 别 持久 化 Dstream 的 RDD。 

+ persist: 存储 到 内 存 。 

“ cache: 缓存 到 内 存 ， 与 petsist 方 法 一 样 。 

+ checkpoint (interval: Duration) : 在 interval 周 期 后 给 生成 的 RDD 设 置 检查 点 。 
“setGraph (g: DStreamGraph) : 设置 Dstream 及 祖宗 Dstream 的 DstreamGraph。 
+ getOrCompute (time: Time) : 从 缓存 generatedRDDs=new HashMap[Time，RDD[I] 中 获取 RDD， 如 果 缓 存 中 不 存在 ， 则 生成 RDD 并 持久 化 、 设 置 检查 点 并 放 入 缓存 。 
+ generateJob (time: Time) : 给 指定 的 Time 对 象 生成 Job。 

+ print: 打印 Dstream 生 成 的 每 个 RDD 的 头 10 个 元 素 。 


+ window (windowDuration: Duration) : 基于 原 有 的 Dstream， 返 回 一 个 包含 了 所 有 在 时 间 滑 动 窗口 中 可 见 元 素 的 新 的 Dstream。 


- reduceByWindow: 基于 原 有 Dstream， 对 所 有 元 素 进 行 reduce 操 作 后 ， 每 个 RDD 都 只 包含 一 个 元 素 的 新 的 Dstream。 
< countByWindow: 基于 原 有 Dstream， 对 所 有 元 素 进行 count 操 作 后 ， 每 个 RDD 都 只 包含 一 个 元 素 的 新 的 Dstream。 
‘union (that: DStream[T]) : 返回 包含 了 当前 Dstream 与 另 一 个 Dstream 的 所 有 数据 的 新 的 Dstream。 

- slice (fromTime: Time, toTime: Time) : 返回 从 fromTime 到 toTime 之 间 的 所 有 RDD 的 序列 。 

+ saveAsObjectFiles: 将 每 个 RDD 作 为 序列 化 对 象 存储 。 

- saveAsTextFiles: 将 每 个 RDD 存 储 为 文本 文件 。 


“ register: 将 当前 Dstream 注 册 到 DstreamGraph 的 输出 流 中 。 


9.4.1 ”Dstream 的 离散 化 





Dstream 本 质 上 表示 连续 的 一 系列 的 RDD。Dstream 中 的 每 个 RDD 包 含 了 一 定 间隔 的 数据 ， 如 图 9-4。 





任何 对 Dstream 的 操作 都 会 转化 为 对 底层 RDD 的 操作 。 如 果 lines 是 一 个 Dstream， 在 其 上 执行 flatMap 操 作 ， 将 lines 转 化 为 命名 为 words 的 Dstream 的 过 程 ， 实 际 就 是 对 lines 底 层 RDD 执 行 flatMap 操 
作 ， 并 将 它们 转化 为 words 的 底层 RDD 的 过 程 ， 如 图 9-5 所 示 。 


RDD @ time 1 RDD @ time2 RDD@time3 RDD @ time 4 


data from data from data from data from 


time 0 to 1 time 1 to 2 time 2 to 3 time 3 to 4 











图 9-4 Dstream 的 离散 化 示意 
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words words from words from words from words from 


DStream — time 0 to 1 time | to 2 time 2 to 3 time 3 to 4 


图 9-5 ”Dstream 的 转换 


94.2 ”数据 源 输入 流 InputDStream 








InputDStream 作 为 数据 源 输入 流 的 超 类 ， 其 继承 体系 如 图 9-6 所 示 。 
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ReceiverlnputDStream 定 义 了 获取 输入 流 接收 器 的 接 | 
ReceiverInputDStream。 此 外 ， 在 flume、kafka、mqtt、twitter 包 中 定义 了 多 种 多 样 


为 例 ，MQTTInputDStream 内 置 了 MQTTReceiver， 见 代码 清单 9-3。 


代码 清单 9-3 ”MQTTInputDStream 的 实现 


private[streaming] 
class MOTTInputDStream ( 
@transient ssc_ : StreamingContext, 
brokerUrl: String, 
topic: String, 
storageLevel: StorageLevel 
) extends ReceiverInputDStream[String] (ssc_) 
def getReceiver(): Receiver[String] = { 





9-6 























{ 


new MOTTReceiver (brokerUrl, topic, storageLevel) 


} 
} 


Input Dstream 继 承 体 系 


方法 getReceiver， 每 个 子 类 都 需要 实现 getReceiver 方 法 。SocketlnputDStream 是 Spark Streaming 内 置 的 以 Socket 作 为 输入 的 
的 ReceiverlnputDstream， 它 们 都 内 置 了 相应 的 Receiver， 这 样 就 可 以 接 入 这 些 输入 流 了 。 以 MQTTInputDStream 














Spark 目 前 不 是 也 支持 接 入 ZeroMQ 的 输入 流 吗 ?为 什么 只 见 有 ZeroMQReceiver， 而 不 见 其 相应 的 ReceiverlnputDstream 实 现 呢 ? Spark 为 了 可 扩展 任何 输入 流 ， 提 供 插件 式 的 


ReceiverlnputDStream， 它 就 是 PluggablelnputDstream。PluggablelnputDStream 的 getReceiver 方 法 实际 返回 的 是 参数 传 入 的 Receiver， 见 代码 清单 9-4。 上 
的 最 新 版 本 是 否 已 经 提供 了 相应 的 ReceiverInputDStream 实 现 。 如 果 是 Spark 目 前 还 不 支持 的 输入 流 ， 可 以 自己 实现 


代码 清单 9-4 ”PluggablelnputDStream 的 实现 
































户 想 要 接 入 新 的 输入 流 时 ， 先 看 看 Spark 





Receiver， 然 后 作为 参数 传递 给 PluggablelnputDStream 即 可 。 





private[streaming] 
class PluggableInputDStream[T: ClassTag] ( 
@transient ssc : StreamingContext, 
receiver: Receiver[T]) extends ReceiverI 
def getReceiver(): Receiver[T] = { 
receiver 


} 


nputDStream[T] (ssc_) { 














由 于 ReceiverlnputDStream 继 承 自 











ssc.graph.addInputStream (this) 





InputDStream，InputDStream 在 初始 化 时 会 执行 下 面 的 语句 。 








所 以 ReceiverInputDStream 及 其 子 类 在 初始 化 时 都 会 被 加 入 当前 StreamingContext 的 Dstream-Graph 输 入 流 中 。 


DstreamGraph 的 addInputStream 方 法 的 实现 如 下 。 





def addInputStream(inputStream: InputDStream[_]) { 


this.synchronized { 
inputStream.setGraph (this) 
inputStreams += inputStream 





addlnputstream 在 将 InputDstream 加 入 DstreamGraph 的 输入 流 的 同时 ，InputDSstream 还 调 有 


代码 清单 9-5 ”Dstream 的 setGraph 方 法 

















setGraph 方 法 ( 见 代码 清单 9-5) 持 有 DstreamGraph。 





private[streaming] def setGraph(g: DStreamGraph) { 


if (graph != null && graph != g) { 


throw new SparkException ("Graph is already set in " + this + ", cannot set it again") 


} 

graph = g 

dependencies. foreach (_.setGraph (graph) ) 
} 





94.3 ”Dstream 转 换 及 构建 DStream Graph 


还 记得 在 5.3 节 介绍 的 word count 例 子 中 ， 通 过 操作 RDD (resilient distributed datasets， 弹 性 分 布 式 数 据 集 ) 提供 的 接 


Streaming 中 ，Dstream 提 供 的 接口 与 RDD 提 供 的 接口 











换 。 有 关 Dstream 转 换 的 类 继承 体系 如 图 9-7 所 示 。 





























非常 相似 。 构 建 完 ReceiverlnputDStream 后 ， 会 调 上 








各 种 Dstream 的 接 





， 如 map、reduce、filter 等 ， 实 现 RDD 的 转换 过 程 吗 ? 在 Spark 











方法 ， 如 map、reduceByKey、flatMap、filter 等 ， 对 Dstream 进 行 转 
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图 9-7 Dstream 转 换 的 类 继承 体系 


Spark Streaming 程 序 中 创建 Dstream， 并 对 Dstream 进 行 各 种 转换 ， 最 后 各 个 Dstream 之 间 的 依赖 关系 就 形成 了 一 张 DStream Graph， 如 图 9-8[1] 所 示 。 


Spark Streaming program DStream Graph 





vart] = new TTLogInputDStream(...) 
vart2 = new TTLogInputDStream(...) 


t= tl join(t2).map(...) ==> (M) Mapped DStream 


t.map(...).foreach(...) 
t.foreach(...) 
t.reduce(...).foreach() 





Foreach DStream 
E E 


图 9-8 ”Streaming 程 序 转换 为 DStream Graph 的 过 程 

















在 JobGenerator 的 启动 过 程 中 ， 会 执行 Dstream 与 RDD 的 转换 ， 可 以 用 图 9-9[2 来 表示 。 


Dstream 转 换 的 源码 分 析 过 程 将 在 9.5 节 详细 阐述 。 


一 个 时 间 间 隔 的 输 RDD Graph 
DStream Graph 入 数据 形成 的 RDD 


=> 





3 Spark jobs 














[由 图片 来 源 自 博文 http://www.tuicool.com/articles/iuMryu。 
[2] 图片 来 源 自 博文 http://www.tuicool.com/articles/iuMryu。 


9.5 “ 流 式 计算 执行 过 程 分 析 























首先 ， 我 们 用 图 9-10 来 展示 整个 Spark Streaming 执 行 的 流程 。 
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图 9-9 ”Dstream 与 RDD 的 转换 
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图 9-10 Spark Streaming 执 行 的 流程 


这 里 对 图 9-10 中 的 各 个 组 件 进行 简单 介绍 : 





+ Receiver: Spark Streaming 内 置 的 输入 流 接收 器 或 者 用 户 自 定义 的 接收 器 ， 用 于 从 数据 源 接收 源源 不 断 的 数据 流 。 


“currentBuffer: 用 于 缓存 输入 流 接收 器 接收 的 数据 流 。 


“ blockIntervalTimer: 一 个 定时 器 ， 用 于 将 CurrentBuffer 中 缓存 的 数据 流 封 装 为 Block 后 放 入 blocksForPushing。 


“ blocksForPushing: 用 于 缓存 将 要 使 用 的 Block。 


“ blockPushingThread: 此 线程 每 隔 100 毫 秒 从 blocksForPushing 中 取出 一 个 Block 存 入 存储 体系 ， 并 缓存 到 ReceivedBlockQueue。 





* Block Batch: Block 批 次 ， 按 照 批 次 时 间 间 隔 ， 从 ReceivedBlockQueue 中 获取 一 批 Block。 
' JobGenerator: Job 生 成 器 ， 用 于 给 每 一 批 Block 生 成 一 个 Job。 


下 面 通过 流 式 计算 的 例子 CustomReceiver， 来 详细 分 析 Spark Streaming 执 行 的 流程 。 


9.5.1” 流 式 计算 例子 CustomReceiver 
































Spark 1.2 的 源码 自 带 了 使 用 Spark Streaming 的 例子 CustomReceiver， 我 们 就 用 它 来 了 解 Spark Streaming 功 能 的 使 用 。 根 据 Spark 官 网 描述 ， 如 果 用 local 模 式 至 少 需要 指定 2 个 CPU 内 核 数目 ， 即 使 
用 local[2] 的 部 署 模式 。 好 奇 的 读者 不 免 要 问 为 什么 ， 这 个 问题 留 到 后 面 回答 ， 先 来 看 看 CustomReceiver 的 实现 ， 见 代码 清单 9-6。 


Ore 


Spark Streaming 需 要 一 个 streaming 源 ，CustomReceivet 的 源码 注释 中 建议 使 用 nc-lk 9999 命 令 来 模拟 。nc (Netcat) 是 一 个 流行 多 年 的 TCP/UDP 的 监听 小 工具 ， 也 是 黑客 常用 的 工具 ， 有 兴趣 的 读者 可 以 自 


行 研究 。 


代码 清单 9-6 ”CustomReceiver 及 其 main 方 法 





object CustomReceiver { 
def main(args: Array[String]) { 
if (args.length < 2) { 
System.err.println("Usage: CustomReceiver <hostname> <port>") 
System.exit (1) 
} 
StreamingExamples.setStreamingLogLevels () 


val sparkConf = new SparkConf () .setAppName ("CustomReceiver") .setMaster ("local [2]"); 


val ssc = new StreamingContext (sparkConf, Seconds (1) ) 


val lines = ssc.receiverStream(new CustomReceiver (args (0), args (1) .toInt) ) 


val words = lines.flatMap(_.split(" ")) 

val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _) 
wordCounts.print () 

ssc.start () 

ssc.awaitTermination () 





从 代码 清单 9-6 中 看 到 CustomReceiver 的 执行 步骤 如 下 。 


1) 初始 化 StreamingContext， 并 指定 批 次 的 时 间 间 隔 是 1 秒 。 


2) 创建 自 定义 的 CustomReceiver。CustomReceiver 通 过 创建 socket 连 接 nc 提 供 的 streaming 服 务 ， 见 代码 清单 9-7。 


代码 清单 9-7 CustomReceiver 的 实现 


class CustomReceiver (host: String, port: Int) 
extends Receiver [String] (StorageLevel.MEMORY_AND DISK 2) with Logging { 


def 


} 
def 


} 


onStart() { 

new Thread("Socket Receiver") { 
override def run() { receive() } 

}.start () 


onStop() { 


private def receive() { 


var socket: Socket = null 
var userInput: String = null 


try { 
logInfo("Connecting to " + host + ":" + port) 
socket = new Socket (host, port) 
logInfo ("Connected to " + host + ":" + port) 


val reader = new BufferedReader (new InputStreamReader (socket.getInputStream(), "UTF-8") ) 
userInput = reader. readLine () 
while(!isStopped && userInput != null) { 

store (userInput) 

userInput = reader. readLine () 


reader.close () 

socket.close () 

logInfo ("Stopped receiving") 
restart ("Trying to connect again") 


} catch { 


case e: java.net.ConnectException => 

restart ("Error connecting to " + host + ":" + port, e) 
case t: Throwable => 

restart ("Error receiving data", t) 











3) 以 CustomReceiver 为 参数 ,调用 StreamingContext 的 receiverStream 方 法 ( 见 代码 清单 9-8) 创建 PluggablelnputDSstream。 














代码 清单 9-8 StreamingContext 的 receiverStream 方 法 





def receiverStream[T: ClassTag] ( 
receiver: Receiver[T]): ReceiverInputDStream[T] = { 


new 











4) 调 











PluggableInputDStream[T] (this, receiver) 


PluggablelnputDSstream 的 父 类 Dstream 的 flatMap 方 法 ， 将 PluggablelnputDSstream 封 装 为 FlatMappedDSstream， 见 代码 清单 9-9。 这 里 正 是 9.4.2 节 所 描述 内 容 的 开始 。 


代码 清单 9-9 ”DStream 的 flatMap 方 法 





def flatMap[U: ClassTag] (flatMapFunc: T => Traversable[U]): DStream[U] = { 


new 


} 











5) 调 











FlatMappedDStream(this, context.sparkContext.clean (flatMapFunc) ) 


FlatMappedDStream 的 父 类 Dstream 的 map 方 法 ， 将 FlatMappedDStream 封 装 为 MappedDStream， 见 代码 清单 9-10。 





代码 清单 9-10 ”DStream 的 map 方 法 





def map 
new 


} 


U: ClassTag] (mapFunc: T => U): DStream[U] = { 
MappedDStream(this, context.sparkContext.clean (mapFunc) ) 























6) 调 


MappedDStream 的 reduceByKey 方 法 ? MappedDSstream 和 它 的 父 类 中 都 没有 定义 reduceByKey， 这 里 与 我 们 介绍 RDD 的 reduceByKey 方 法 时 类 似 ， 也 发 生 了 隐 式 转换 ， 见 代码 


代码 清单 9-11 ” StreamingContext 中 的 隐 式 转换 


:者 
is 





49-11, 





implicit def toPairDStreamFunctions[K, V] (stream: DStream[(K, V)]) 


new 


(implicit kt: ClassTag[K], vt: ClassTag[V], ord: Ordering[K] = null) = { 
PairDStreamFunctions[K, V] (stream) 

















转换 为 PairDSstreamFunctions 后 ， 调 用 它 的 reduceByKey 方 法 ， 见 代码 清单 9-12。 








代码 清单 9-12 ”PairDStreamFunctions 的 reduceByKey 方 法 





def reduceByKey (reduceFunc: (V, V) => V): DStream[(K, V)] = { 
reduceByKey (reduceFunc, defaultPartitioner ()) 


} 


首先 获取 默认 的 Partitioner， 见 代码 清单 9-13。 





代码 清单 9-13 PairDstreamFunctions 的 defaultPartitioner 方 法 





private 
new 


} 


streaming] def defaultPartitioner(numPartitions: Int = self.ssc.sc.defaultParallelism) = { 
HashPartitioner (numPartitions) 



























































然后 调用 重 载 的 reduceByKey 方 法 ， 其 中 调用 了 combineByKey 方 法 ， 见 代码 清单 9-14。 
代码 清单 9-14 PairDstreamFunctions 中 重 载 的 reduceByKey 方 法 
def reduceByKey (reduceFunc: (V, V) => V, partitioner: Partitioner): DStream[(K, V)] = { 


val 


cleanedReduceFunc = ssc.sc.clean(reduceFunc) 


combineByKey((v: V) => v, cleanedReduceFunc, cleanedReduceFunc, partitioner) 





PairDSt 


代码 清和 


reamFunctions 的 combineByKey 方 法 将 MappedDStream 转 换 为 ShuffledDSstream， 见 代码 清单 9-15。 





9-15 ”PairDStreamFunctions 的 combineByKey 方 法 








def combineByKey[C: ClassTag] ( 

createCombiner: V => C, 

mergeValue: (C, V) => C, 

mergeCombiner: (C, C) => C, 

partitioner: Partitioner, 

mapSideCombine: Boolean = true): DStream[ (K, C)] = { 

new ShuffledDStream[K, V, C] (self, createCombiner, mergeValue, mergeCombiner, 
partitioner, 
mapSideCombine) 





7) print 方 法 又 将 ShuffledDSstream 封 装 为 ForEachDStream， 见 代码 清单 9-16。 





代码 清单 9-16 ”Dstream 的 print 方 法 


def print() { 

def foreachFunc 
val firstl 
println (" 
println ( 
println ( 
first11.take (10) . foreach (println) 
if (firstll.size > 10) println("http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/...") 
printin() 


(rdd: RDD[T], time: Time) => { 
rdd.take (11) 








} 


new ForEachDStream(this, context.sparkContext.clean (foreachFunc) ) . register () 

















调用 register 方 法 将 ForEachDSstream 注 册 到 DstreamGraph 的 输出 流 中 ， 见 代码 清单 9-17。 





代码 清单 9-17 ”Dstream 的 register 方 法 





private[streaming] def register(): DStream[T] = { 
ssc.graph.addOutputStream (this) 
this 





DStreamGraph 的 addOutputStream 方 法 ， 见 代码 清单 9-18。 





代码 清单 9-18 ”DStreamGraph 的 addOutputStream 方 法 


def addOutputStream(outputStream: DStream[_]) { 
this.synchronized { = 
outputStream.setGraph (this) 
outputStreams += outputStream 














8) CustomReceiver 最 后 调用 StreamingContext 的 start 方 法 来 启动 流 式 计 算 的 过 程 ， 其 实现 见 代 码 清单 9-19。 














代码 清单 9-19 ” StreamingContext 的 start 方 法 





def start(): Unit = synchronized { 
if (state == Started) { 
throw new SparkException ("StreamingContext has already been started") 
} 
if (state == Stopped) { 
throw new SparkException ("StreamingContext has already been stopped") 
} 
validate () 
sparkContext .setCallSite (DStream.getCreationSite ()) 
scheduler.start () 
state = Started 





StreamingContext 的 start 方 法 中 主要 调用 了 JobScheduler 的 start 方 法 〈( 见 代码 清单 9-20) 。JobScheduler 的 启动 由 以 下 步骤 组 成 : 


1) 创建 eventActor 的 匿名 类 实现 ， 主 要 用 于 处 理 各 类 JobScheduler 的 事件 。 


























2) 启动 StreamingListenerBus， 实 现 原 理 与 LiveListenerBus 相 同 ， 主 要 用 于 更 新 Spark UI 中 StreamTab 的 内 容 。 





3) 创建 并 启动 ReceiverTracker。ReceiverTracker 用 于 处 理 数据 接收 、 数 据 缓 存 、Block 生 成 等 工作 。 





4) 启动 JobGenerator。JobGenerator 负 责 对 DstreamGraph 的 初始 化 、Dstream 与 RDD 的 转换 、 生 成 Job、 提 交 执 行 等 工作 。 








我 们 主要 关注 ReceiverTracker 和 JobGenerator 的 启动 过 程 。 


代码 清单 9-20 Jobscheduler 的 start 方 法 


def start(): Unit = synchronized { 

if (eventActor != null) return // scheduler has already been started 

logDebug ("Starting JobScheduler") 

eventActor = ssc.env.actorSystem.actorOf (Props (new Actor { 
def receive = { 

case event: JobSchedulerEvent => processEvent (event) 

} 

}), "JobScheduler") 

listenerBus.start () 

receiverTracker = new ReceiverTracker (ssc) 

receiverTracker.start () 

jobGenerator.start () 

logInfo ("Started JobScheduler") 


9.5.2 Spark Streaming 执 行 环境 构建 


ReceiverTracker 的 启动 过 程 ， 实 际 是 对 Spark Streaming 执 行 环境 构建 的 过 程 。ReceiverTracker 的 start 方 法 中 ， 如 果 receiverInputStreams 中 存在 ReceiverInputDStream， 则 向 ActorSystem 注 册 
ReceiverTrackerActor， 并 且 启 动 receiverExecutor， 见 代码 清单 9-21。 





代码 清单 9-21 ” ReceiverTracker 的 start 方 法 





def start() = synchronized { 
if (actor != null) { 
throw new SparkException("ReceiverTracker already started") 


if (!receiverInputStreams.isEmpty) { 
actor = ssc.env.actorSystem.actorOf (Props (new ReceiverTrackerActor) , 
"ReceiverTracker") 
if (!skipReceiverLaunch) receiverExecutor.start () 
logInfo ("ReceiverTracker started") 





ReceiverTracker 中 的 receiverlnputStreams 实 际 调用 了 DSstreamGraph 的 getReceiverlnput-Streams 方 法 ， 代 码 如 下 。 








private val receiverInputStreams = ssc.graph.getReceiverInputStreams () 





getReceiverlnputStreams 方 法 用 于 过 滤 出 DstreamGraph 的 inputstreams 中 的 Receiverlnput-DStream， 实 现 如 下 。 





def getReceiverInputStreams () = this.synchronized { 
inputStreams .filter (_.isInstanceOf [ReceiverInputDStream[_]]) 
-Map(_.asInstanceOf [ReceiverInputDStream[_]]) 
. toArray T 























ReceiverTrackerActor 用 于 接收 来 自 Receiver 的 消息 ， 包 括 RegisterReceiver、AddBlock、ReportError、DeregisterReceiver 等 ， 


代码 清单 9-22 ”ReceiverTrackerActor 接 收 来 自 Receiver 的 消息 代码 


private class ReceiverTrackerActor extends Actor { 
def receive = { 

case RegisterReceiver(streamId, typ, host, receiverActor) => 
registerReceiver(streamId, typ, host, receiverActor, sender) 
sender ! true 

case AddBlock (receivedBlockInfo) => 
sender ! addBlock(receivedBlockInfo) 

case ReportError(streamId, message, error) => 
reportError(streamId, message, error) 

case DeregisterReceiver (streamId, message, error) => 
deregisterReceiver(streamId, message, error) 
sender ! true 














receiverExecutor 的 类 型 是 ReceiverLauncher。ReceiverLauncher 的 start 方 法 用 于 启动 匿名 线程 thread， 见 代码 清单 9-23。 











代码 清单 9-23 ”ReceiverLauncher 启 动 的 匿名 线程 thread 的 实现 


见 代 码 清单 9-22。 





@transient val thread = new Thread() { 
override def run() { 
try { 
SparkEnv.set (env) 
startReceivers () 
} catch { 
case ie: InterruptedException => logInfo("ReceiverLauncher interrupted") 
} 
} 
} 
def start() { 
thread. start () 
} 














Thread 线 程 的 主要 作用 在 于 调用 startReceivers 方 法 ( 见 代码 清单 9-24) 。 其 处 理 步 又 如 下 : 
1) 获取 每 个 ReceiverlnputDStream 的 Receiver， 本 例 中 即 为 CustomReceiver。 


2) 获取 每 个 ReceiverlnputDSstream 的 优先 选择 机 器 。 














3) 调用 SparkContext 的 makeRDD 方 法 ， 将 所 有 Receiver 封 装 为 ParallelCollectionRDD， 并 行 度 是 receivers 的 数量 。makeRDD 方 法 实际 调用 parallelize， 见 代码 清单 9-25。parallelize 中 构造 了 
ParallelCollectionRDD， 见 代码 清单 9-26。 











4) 定义 偏 函数 startReceiver， 此 函数 用 于 接收 每 个 Receiver 的 数据 。 














5) 以 startReceiver 为 参数 ， 提 交 任 务 。 


Ora 


+. 


ssc.sparkContext.makeRDD (1 to 50, 50) .map (x=> (x, 1) ) .reduceByKey (_+_, 20) .collect () 这 条 语句 通过 运行 重复 的 作业 来 确保 所 有 的 slave 都 已 经 注册 了 ， 避 免 所 有 的 receivers 都 到 一 个 节 


代码 清单 9-24 ”ReceiverTracker 的 startReceivers 方 法 


点 





private def startReceivers() { 
val receivers = receiverInputStreams.map(nis => { 
val rcvr = nis.getReceiver () 
revr.setReceiverlId (nis. id) 
revr 
H 
val hasLocationPreferences = receivers.map(_.preferredLocation.isDefined) .reduce(_ && _) 
val tempRDD = T A T 
if (hasLocationPreferences) { 
val receiversWithPreferences = receivers.map(r => (r, Seq(r.preferred Location.get))) 
ssc.sc.makeRDD[Receiver[_]] (receiversWithPreferences) 
} else { T 
ssc.sc.makeRDD (receivers, receivers.size) 
} 
val checkpointDirOption = Option (ssc.checkpointDir) 
val serializableHadoopConf = new SerializableWritable (ssc.sparkContext .hadoopConfiguration) 
val startReceiver = (iterator: Iterator[Receiver[_]]) => { 
if (!iterator.hasNext) { 
throw new SparkException ( 
"Could not start receiver as object not found.") 
} 
val receiver = iterator.next () 
val supervisor = new ReceiverSupervisorImp] ( 
receiver, SparkEnv.get, serializableHadoopConf.value, checkpointDirOption) 
supervisor.start () 
supervisor.awaitTermination () 


} 
if (!ssc.sparkContext.isLocal) { 
ssc.sparkContext.makeRDD(1 to 50, 50).map(x => (x, 1)).reduceByKey(_ + _, 20) «collect () 
} 
running = true 
ssc.sparkContext.runJob(tempRDD, ssc.sparkContext.clean (startReceiver)) 
running = false 





代码 清单 9-25 SparkContext 的 makeRDD 方 法 





def makeRDD[T: ClassTag] (seq: Seq[T], numSlices: Int = defaultParallelism): RDD[T] = { 
parallelize (seq, numSlices) 
} 





代码 清单 9-26 SparkContext 的 parallelize 方 法 


def parallelize[T: ClassTag] (seq: Seq[T], numSlices: Int = defaultParallelism): RDD[T] = { 
assertNotStopped () 
new ParallelCollectionRDD[T] (this, seg, numSlices, Map[Int, Seq[String]] ()) 












































任务 提交 阶段 执行 代码 清单 5-19 中 的 runJob 方 法 时 ， 首 先 调用 RDD 的 partitions。 根 据 5.3 节 的 代码 清单 5-10 和 代码 清单 5-11， 我 们 知道 最 终 会 调用 ParallelCollectionRDD 的 getPartitions 方 法 。 
ParallelCollectionRDD 的 getPartitions 方 法 ， 见 代码 清单 9-27。 


代码 清单 9-27 ”ParallelCollectionRDD 的 getPartitions 方 法 





override def getPartitions: Array[Partition] = { 
val slices = ParallelCollectionRDD.slice (data, numSlices) .toArray 
slices.indices.map(i => new ParallelCollectionPartition(id, i, slices (i))).toArray 





ParallelCollectionRDD 的 slice 方 法 〈 见 代码 清单 9-28) 用 于 将 一 个 集合 切 分 为 numslices 个 子 集合 ， 这 样 做 可 以 让 多 个 Receiver 有 效 地 运行 在 Spark 上 。 此 处 实际 是 将 Receiver 划 分 为 多 个 序列 ， 然 后 
给 每 个 序列 创建 一 个 ParallelCollectionPartition。ParallelCollectionPartition 的 数目 实际 由 numslices 决 定 。 





代码 清单 9-28 ”ParallelCollectionRDD 的 slice 方 法 





def slice[T: ClassTag] (seq: Seq[T], numSlices: Int): Seq[Seq[T]] = { 
if (numSlices < 1) { 
throw new IllegalArgumentException ("Positive number of slices required") 
} 
def positions (length: Long, numSlices: Int): Iterator[(Int, Int)] = { 
(0 until numSlices) .iterator.map(i => { 
val start = ((i * length) / numSlices) .toInt 
val end = (((i + 1) * length) / numSlices) .toInt 
(start, end) 
D) 


seq match { 
case r: Range => { 
positions (r.length, numSlices) .zipWithIndex.map({ case ((start, end), index) => 
// If the range is inclusive, use inclusive range for the last slice 
if (r.isInclusive && index == numSlices - 1) { 
new Range.Inclusive(r.start + start * r.step, r.end, r.step) 


else { 
new Range(r.start + start * r.step, r.start + end * r.step, r.step) 


}) .toSeq.asInstanceOf [Seq[Seg[T]]] 
} 
case nr: NumericRange[_] => { 
val slices = new ArrayBuffer[Seq[T] ] (numSlices) 
var r= nr 
for ((start, end) <- positions(nr.length, numSlices)) { 
val sliceSize = end - start 
slices += r.take(sliceSize) .asInstanceOf [Seq[T] ] 
r = r.drop(sliceSize) 
} 
slices 
} 
case => { 
val array = seq.toArray // To prevent O(n*2) operations for List etc 
positions (array.length, numSlices) .map({ 
case (start, end) => 
array.slice(start, end) .toSeq 
}) .toSeq 
} 














任务 执行 阶段 ， 根 据 6.1 节 的 分 析 ， 我 们 清楚 最 终 会 调用 ParallelCollectionRDD 的 compute 方 法 。compute 方 法 ( 见 代码 清单 9-29) 会 构建 Interruptiblelterator。 

















代码 清单 9-29 ParallelCollectionRDD 的 compute 方 法 


override def compute(s: Partition, context: TaskContext) = { 
new InterruptibleIterator (context, s.asInstanceOf [ParallelCollectionPartition[T]].iterator) 


} 




















根据 代码 清单 5-62 中 对 ResultTask 的 runTask 方 法 的 介绍 ， 知 道 最 后 会 回调 代码 清单 9-24 中 定义 的 偏 函数 startReceiver。startReceiver 首 先 新 建 一 个 ReceiverSupervisorlImpl， 然 后 调用 它 的 start 方 法 
( 见 代码 清单 9-30) 启动 Supervisor。 




















代码 清单 9-30 “ReceiverSupervisor 的 start 方 法 


def start() { 
onStart () 
startReceiver () 


























start 方 法 中 先后 调用 了 onStart 与 startReceiver 方 法 。 我 们 先 来 分 析 onStart 方 法 。onStart 实 际 调用 了 blockGenerator 的 start 方 法 。 




















override protected def onStart() { 
blockGenerator. start () 


} 








blockGenerator 实 际 是 BlockGenerator 的 匿名 实现 类 ，blockGenerator 的 参数 是 Block-GeneratorListener 的 匿名 实现 类 ， 











出 


看 写 了 onError 和 onPushBlock 方 法 ， 见 代码 清单 9-31。 





代码 清单 9-31 ReceiverSupervisorImpl.scala 中 BlockGenerator 的 匿名 实现 类 








private val blockGenerator = new BlockGenerator (new BlockGeneratorListener { 
def onAddData(data: Any, metadata: Any): Unit = { } 
def onGenerateBlock (blockId: StreamBlockId): Unit = { } 
def onError (message: String, throwable: Throwable) { 
reportError (message, throwable) 


def onPushBlock(blockId: StreamBlockId, arrayBuffer: ArrayBuffer[_]) { 
pushArrayBuffer (arrayBuffer, None, Some (blockId) ) 


}, streamId, env.conf) 








BlockGenerator 的 start 方 法 见 代 码 清单 9-32， 其 处 理 步骤 如 下 : 


1) 启动 blocklntervalTimer。blocklntervalTimer 的 类 型 是 RecurringTimer，RecurringTimer 的 start 方 法 实际 启动 了 内 置 的 线程 thread， 这 个 thread 按 照 指 定 的 周期 blocklnterval 回 调 callback 方 
法 ， 即 回调 updateCurrentBuffer 方 法 ， 见 代码 清单 9-33 和 代码 清单 9-34。 











代码 清单 9-32 ”BlockGenerator 的 start 方 法 


def start() { 
blockIntervalTimer. start () 
blockPushingThread. start () 
logInfo ("Started BlockGenerator") 


代码 清单 9-33 ”BlockGenerator 的 部 分 实现 








private val clock = new SystemClock () 
private val blockInterval = conf.getLong("spark.streaming.blockInterval", 200) 
private val blockIntervalTimer = 
new RecurringTimer (clock, blockInterval, updateCurrentBuffer, "BlockGenerator") 
private val blockQueueSize = conf.getInt ("spark.streaming.blockQueueSize", 10) 
private val blocksForPushing = new ArrayBlockingQueue [Block] (blockQueueSize) 
private val blockPushingThread = new Thread() { override def run() { keepPushingBlocks() } } 
@volatile private var currentBuffer = new ArrayBuffer [Any] 


代码 清单 9-34 ”RecurringTimer 的 实现 








private [streaming] 
class RecurringTimer (clock: Clock, period: Long, callback: (Long) => Unit, name: String) 
extends Logging { 


private val thread = new Thread("RecurringTimer - " + name) { 
setDaemon (true) 
override def run() { loop } 


def start (startTime: Long): Long = synchronized { 
nextTime = startTime 
thread.start () 
logInfo ("Started timer for " + name + " at time " + nextTime) 
nextTime 
} 
private def loop() { 
try { 
while (!stopped) { 
clock.waitTillTime (nextTime) 
callback (nextTime) 
prevTime = nextTime 
nextTime += period 
logDebug ("Callback for " + name + " called at time " + prevTime) 
} 
} catch { 
case e: InterruptedException => 


} 











updateCurrentBuffer 方 法 〈 见 代码 清单 9-35) 的 作用 如 下 : 








@@ 生 成 新 的 StreamBlockld， 生 成 规则 : "input-"+streamld+"-"+ (调用 time-blocklnterval) ，blocklnterva 为 生成 block 的 间隔 时 长 。 


@ 将 当前 currentBuffer 与 StreamBlockld 封 装 为 Block。 




















四 调用 BlockGeneratorListener 的 onGenerateBlock。 本 例 中 ，BlockGeneratorListener 的 匿名 实现 类 并 未 实现 onGenerateBlock 方 法 。 





@ 将 新 建 的 Block 放 入 blocksForPushing 中 。 





代码 清单 9-35 ”BlockGenerator 的 updateCurrentBuffer 方 法 





private def updateCurrentBuffer (time: Long): Unit = synchronized { 
try { 
7 val newBlockBuffer = currentBuffer 

currentBuffer = new ArrayBuffer [Any] 

if (newBlockBuffer.size > 0) { 
val blockId = StreamBlockId(receiverId, time - blockInterval) 
val newBlock = new Block(blockId, newBlockBuffer) 
listener.onGenerateBlock (blockId) 
blocksForPushing.put (newBlock) // put is blocking when queue is full 
logDebug ("Last element in " + blockId + " is " + newBlockBuffer.last) 


} 
} catch { 
case ie: InterruptedException => 
logInfo ("Block updating timer thread was interrupted") 
case e: Exception => 
reportError ("Error in block updating thread", e) 

















2) 启动 线程 blockPushingThread， 此 线程 主要 调用 keepPushingBlocks， 见 代码 清单 9-33。keepPushingBlocks 方 法 〈( 见 代码 清单 9-36) 的 作用 如 下 : 

















@@ 当 BlockGenerator 没 有 停止 时 ， 每 隔 100 毫 秒 从 blocksForPushing 中 取出 一 个 Block， 然 后 调用 pushBlock 方 法 。 














@ 一 旦 BlockGenerator 停 止 了 ， 将 blocksForPushing 中 所 有 的 Block 取 出 ， 然 后 调用 pushBlock 方 法 。 








代码 清单 9-36 ”BlockGenerator 的 keepPushingBlocks 方 法 





private def keepPushingBlocks() { 


while(!stopped) { 
Option (blocksForPushing.poll(100, TimeUnit.MILLISECONDS)) match { 
case Some (block) => pushBlock (block) 
case None => 
} 
} 
logInfo ("Pushing out the last " + blocksForPushing.size() + " blocks") 
while (!blocksForPushing.isEmpty) { 
logDebug ("Getting block ") 
val block = blocksForPushing.take () 
pushBlock (block) 
logInfo ("Blocks left to push " + blocksForPushing.size()) 
} 
logInfo ("Stopped block pushing thread") 





pushBlock 调 用 BlockGeneratorListener 的 onPushBlock 方 法 ， 见 代码 清单 9-37。 


代码 清单 9-37 ”BlockGenerator 的 pushBlock 方 法 








private def pushBlock (block: Block) { 
listener.onPushBlock (block.id, block.buffer) 
logInfo ("Pushed block " + block.id) 






































onPushBlock 又 调用 了 代码 清单 9-31 中 BlockGeneratorListener 的 匿名 实现 类 的 onPushBlock 方 法 ，onPushBlock 方 法 然后 调用 了 ReceiverSupervisorImpl 的 pushArrayBuffer。pushArrayBuffer 实 
际 代理 了 pushAndReportBlock， 见 代码 清单 9-38。 














代码 清单 9-38 ”ReceiverSupervisorImpl 的 pushArrayBuffer 方 法 








arrayBuffer: ArrayBuffer {_] ¥ 
metadataOption: Option [Any], 
blockIdOption: Option[StreamBlockId] 
) í 
pushAndReportBlock (ArrayBufferBlock (arrayBuffer), metadataOption, blockIdOption) 


pushAndReportBlock 方 法 见 代 码 清单 9-39。 





代码 清单 9-39 ReceiverSupervisorlmplAJpushAndReportBlockAj& 








def pushAndReportBlock ( 
receivedBlock: ReceivedBlock, 
metadataOption: Option[Any], 
blockIdOption: Option[StreamBlockId] 


val blockId = blockIdOption.getOrElse (nextBlockId) 

val numRecords = receivedBlock match { 
case ArrayBufferBlock(arrayBuffer) => arrayBuffer.size 
case _ => -1 


val time = System.currentTimeMillis 

val blockStoreResult = receivedBlockHandler.storeBlock (blockId, receivedBlock) 
logDebug(s"Pushed block $blockId in ${ (System.currentTimeMillis - time) } ms") 
val blockInfo = ReceivedBlockInfo(streamId, numRecords, blockStoreResult) 

val future = trackerActor.ask (AddBlock (blockInfo) ) (askTimeout) 

Await.result (future, askTimeout) 

logDebug(s"Reported block $blockId") 





pushAndReportBlock 方 法 的 处 理 步骤 如 下 : 




















1) 调用 receivedBlockHandler 的 storeBlock 方 法 将 block 存 储 到 Spark 的 存储 体系 中 。 从 代码 清单 9-40 可 以 看 出 默认 情况 下 receivedBlockHandler 为 BlockManagerBasedBlockHandler。 
BlockManagerBasedBlockHandler 的 storeBlock 正 是 使 用 第 4 章 介绍 过 的 BlockManager 的 putBytes 或 者 putlterator 来 实现 的 ， 见 代码 清单 9-41。 



































代码 清单 9-40 ”ReceiverSupervisorImpl.scala 中 receivedBlockHandler 的 定义 


private val receivedBlockHandler: ReceivedBlockHandler = { 
if (env.conf.getBoolean ("spark.streaming.receiver.writeAheadLog.enable", false)) { 
if (checkpointDirOption.isEmpty) { 
throw new SparkException ( 
"Cannot enable receiver write-ahead log without checkpoint directory set. " 
"Please use streamingContext.checkpoint() to set the checkpoint directory. " + 
"See documentation for more details.") 





} 
new WriteAheadLogBasedBlockHandler (env.blockManager, receiver.streamId, 
receiver.storageLevel, env.conf, hadoopConf, checkpointDirOption.get) 
} else { 
new BlockManagerBasedBlockHandler (env.blockManager, receiver.storageLevel) 


} 


代码 清单 9-41 BlockManagerBasedBlockHandler 的 storeBlock 方 法 








def storeBlock (blockId: StreamBlockId, block: ReceivedBlock): ReceivedBlockStoreResult = { 
val putResult: Seq[(BlockId, BlockStatus)] = block match { 
case ArrayBufferBlock (arrayBuffer) => 
blockManager.putIterator (blockId, arrayBuffer.iterator, storageLevel, tellMaster = true) 
case IteratorBlock(iterator) => 
blockManager.putIterator (blockId, iterator, storageLevel, tellMaster = true) 
case ByteBufferBlock (byteBuffer) => 
blockManager.putBytes (blockId, byteBuffer, storageLevel, tellMaster = true) 
case o => 
throw new SparkException ( 
s"Could not store $blockId to block manager, unexpected block type ${o.getClass.getName}") 
} 
if (!putResult.map { _. 1 }.contains(blockId)) { 
throw new SparkException ( 
s"Could not store $blockId to block manager with storage level $storageLevel") 


BlockManagerBasedStoreResult (blockId) 





2) 将 上 一 步 返回 的 结果 等 信息 封装 为 样 例 类 ReceivedBlocklnfo 的 实例 ， 再 封装 为 样 例 类 AddBlock 的 实例 ， 最 后 向 trackerActor 发 送 AddBlock 消 息 。 从 代码 清单 9-22 中 知道 ，ReceiverTrackerActor 
收 到 AddBlock 消 息 后 ， 会 调用 addBlock 方 法 ， 根 据 代码 清单 9-42 和 代码 清单 9-43， 我 们 知道 最 终 会 将 ReceivedBlocklnfo 更 新 至 当前 Receiver 在 streamldToUnallocatedBlockQueues=new 
mutable.HashMap[lnt，ReceivedBlockQueue] 中 对 应 的 ReceivedBlockQueue 中 。 









































代码 清单 9-42 ReceiverTracker 的 addBlock 方 法 





private def addBlock(receivedBlockInfo: ReceivedBlockInfo): Boolean = { 
receivedBlockTracker.addBlock (receivedBlockInfo) 


} 





代码 清单 9-43 ReceivedBlockTracker 的 addBlock 方 法 





def addBlock (receivedBlockInfo: ReceivedBlockInfo): Boolean = synchronized { 
writeToLog (BlockAdditionEvent (receivedBlockInfo) ) 
getReceivedBlockQueue (receivedBlockInfo.streamId) += receivedBlockInfo 
logDebug(s"Stream ${receivedBlockInfo.streamId} received " + 
s"block ${receivedBlockInfo.blockStoreResult .blockId}") 
true 


private def getReceivedBlockQueue(streamId: Int): ReceivedBlockQueue = { 
streamIdToUnallocatedBlockQueues.getOrElseUpdate (streamId, new ReceivedBlockQueue) 
} 





到 这 里 ， 我 们 知道 线程 blockPushingThread 将 blocksForPushing 中 的 Block 不 断 存储 到 存储 体系 中 ，blocksForPushing 中 的 Block 是 由 blocklntervalTimer 内 置 的 线程 源源 不 断 从 currentBuffer 中 供 




















给 的 。 那 么 ，currentBuffer 中 的 数据 来 自 哪里 ? 让 我 们 接着 往 下 看 。 











介绍 完 ReceiverSupervisorImpl 的 onStart， 我 们 现在 开始 分 析 startReceiver 方 法 ，startReceiver 方 法 见 代 码 清单 9-44， 

















1) 调用 receiver 的 onStart 方 法 。 本 例 中 ，receiver 即 为 CustomReceiver， 从 代码 清单 9-7 中 我 们 知道 ，CustomReceiver 的 onStart 方 法 启动 了 命名 为 Socket Receiver 的 线程 ， 这 个 线程 主 




















执行 步骤 如 下 。 
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于 使 











套 接 字 获 取 数 据 源 的 数据 流 ， 然 后 调用 store 方 法 ， 见 代码 清单 9-45。 这 里 的 executor 是 什么 ? 还 记得 之 前 构造 的 ReceiverSupervisorImpl 吗 ? 它 的 父 类 在 初始 化 时 ， 会 执行 代码 清单 9-46 中 的 代码 ， 通 过 





























调用 Receiver 的 attachExecutor 方 法 ， 将 ReceiverSupervisorImpl 设 置 为 executor， 见 代码 清单 9-47。 


代码 清单 9-44 ”ReceiverSupervisor 的 startReceiver 方 法 





def startReceiver(): Unit = synchronized { 
try { 
logInfo ("Starting receiver") 
receiver.onStart () 
logInfo ("Called receiver onStart") 
onReceiverStart () 
receiverState = Started 
} catch { 
case t: Throwable => 
stop ("Error starting receiver " + streamId, Some(t) ) 





代码 清单 9-45 “Receiver 的 store 方 法 


def store(dataItem: T) { 
executor.pushSingle (dataItem) 


private def executor = { 
! 


assert (executor_ != null, "Executor has not been attached to this receiver") 
executor_ 


代码 清单 9-46 ”ReceiverSupervisor 初 始 化 时 执行 的 代码 








receiver.attachExecutor (this) 


代码 清单 9-47 ”Receiver 的 attachExecutor 方 法 





private[streaming] def attachExecutor (exec: ReceiverSupervisor) { 
assert (executor_ == null) 
executor_ = exec 





ReceiverSupervisorImpl 的 pushSingle 方 法 ， 见 代码 清单 9-48。BlockGenerator 的 addData 方 法 首先 调用 waitToPush 限 制 Receiver 消 费 数据 流 的 速率 ， 然 后 将 数据 放 入 currentBuffer 中 ， 见 代码 清和 


9-49, 


代码 清单 9-48 ”ReceiverSupervisorImpl 的 pushSingle 方 法 


def pushSingle(data: Any) { 
blockGenerator.addData (data) 
} 


ig 








代码 清单 9-49 BlockGenerator 的 addData 方 法 





def addData (data: Any): Unit = synchronized { 
waitToPush () 
currentBuffer += data 





























2) 调用 ReceiverSupervisorlImpI 的 onReceiverStart 方 法 ， 用 于 给 ReceiverTrackerActor 发 送 RegisterReceiver 消 息 ， 见 代码 清 生 
registerReceiver 方 法 ， 见 代码 清单 9-22。registerReceiver 方 法 创建 Receiverlnfo 后 注册 到 receiverlnfo 中 ， 见 代码 清单 9-51。 














代码 清单 9-50 ”ReceiverSupervisorImpl 的 onReceiverStart 方 法 














和 9-50。 ReceiverTrackerActor 接 收 RegisterReceiver 后 调 上 











override protected def onReceiverStart() { 
val msg = RegisterReceiver ( 
streamId, receiver.getClass.getSimpleName, Utils.localHostName(), actor) 
val future = trackerActor.ask (msg) (askTimeout) 
Await.result (future, askTimeout) 





代码 清单 9-51 ”RegisterReceiver 的 registerReceiver 方 法 








private def registerReceiver ( 
streamId: Int, 
typ: String, 


host: String, 
receiverActor: ActorRef, 
sender: ActorRef 


if (!receiverInputStreamIds.contains(streamId)) { 
throw new SparkException ("Register received for unexpected id " + streamId) 
} 
receiverInfo(streamId) = ReceiverInfo( 
streamId, s"${typ}-${streamId}", receiverActor, true, host) 
listenerBus .post (StreamingListenerReceiverStarted (receiverInfo (streamId) ) ) 
logInfo ("Registered receiver for stream " + streamId + " from " + sender.path.address) 








有 关 创 建 并 启动 ReceiverTracker 的 过 程 已 经 叙述 完毕 ， 根 据 第 7 章 的 内 容 我 们 知道 ，blocklntervalTimer、blockPushingThread 及 Receiver 都 运行 在 Executor 上 。 


9.5.3 ”任务 生成 过 程 


介绍 完 ReceiverTracker 的 创建 和 启动 ， 现 在 回头 看 看 启动 JobGenerator 的 start 方 法 ， 见 代码 清单 9-52。 


代码 清单 9-52 JobGenerator 的 start 方 法 





def start(): Unit = synchronized { 
if (eventActor != null) return // generator has already been started 
eventActor = ssc.env.actorSystem.actorOf (Props (new Actor { 
def receive = { 
case event: JobGeneratorEvent => processEvent (event) 


} 

}), "JobGenerator") 

if (ssc.isCheckpointPresent) { 
restart () 

} else { 
startFirstTime () 


} 





JobGenerator 的 start 方 法 的 处 理 过 程 如 下 : 


1) 创建 接收 JobGeneratorEvent 消 息 的 Actor， 即 eventActor。 








2) 调用 startFirstTime 方 法 ， 对 DStreamGraph 中 的 outputStreams 和 inputStreams 进 行 一 些 初始 化 动作 ， 见 代码 清单 9-53 和 代码 清单 9-54。 




















代码 清单 9-53 JobGenerator 的 startFirstTime 方 法 





private def startFirstTime() { 
val startTime = new Time(timer.getStartTime () ) 
graph.start (startTime - graph.batchDuration) 
timer. start (startTime.milliseconds) 
logInfo ("Started JobGenerator at " + startTime) 


代码 清单 9-54 ”DStreamGraph 的 start 方 法 





def start (time: Time) { 
this.synchronized { 
if (zeroTime != null) { 
throw new Exception("DStream graph computation already started") 

} 
zeroTime = time 
startTime = time 
outputStreams.foreach( .initialize (zeroTime)) 
outputStreams. foreach (_. remember (rememberDuration) ) 
outputStreams. foreach (".validate) 
inputStreams.par. foreach (_.start()) 








代码 清单 9-53 中 的 timer 也 是 一 个 RecurringTimer 对 象 ， 根 据 RecurringTimer 的 原理 我 们 知道 ，timer 会 按照 batchDuration 指 定 的 时 间 间 隔 ， 向 eventActor 发 送 GeneratejJobs 消 息 ， 见 代码 清单 9- 
55。GenerateJobs 继 承 自 JobGeneratorEvent， 所 以 eventActor 会 调用 processEvent 方 法 处 理 。processEvent 则 将 GenerateJobs 消 息 的 处 理 委 托 给 generateJobs 处 理 ， 见 代码 清单 9-56。 




















代码 清单 9-55 JobGenerator.scala 中 timer 的 定义 





private val timer = new RecurringTimer (clock, ssc.graph.batchDuration.milliseconds, 
longTime => eventActor ! GenerateJobs (new Time(longTime)), "JobGenerator") 





代码 清单 9-56 ”JobGenerator 的 processEvent 方 法 





private def processEvent (event: JobGeneratorEvent) { 
logDebug ("Got event " + event) 
event match { 
case GenerateJobs (time) => generateJobs (time) 
case ClearMetadata(time) => clearMetadata (time) 
case DoCheckpoint (time) => doCheckpoint (time) 
case ClearCheckpointData (time) => clearCheckpointData (time) 





generatejobs 方 法 的 实现 见 代码 清单 9-57。 





代码 清单 9-57 JobGenerator 的 generatejJobs 方 法 





private def generateJobs(time: Time) { 
SparkEnv.set (ssc.env) 
Try { 
jobScheduler. receiverTracker.allocateBlocksToBatch (time) // allocate received blocks to batch 
graph.generateJobs (time) // generate jobs using allocated block 
} match { 
case Success (jobs) => 
val receivedBlockInfos = 
jobScheduler.receiverTracker.getBlocksOfBatch (time) .mapValues { _.to-Array } 
jobScheduler.submitJobSet (JobSet (time, jobs, receivedBlockInfos) ) 
case Failure(e) => 
jobScheduler.reportError ("Error generating jobs for time " + time, e) 
f 
eventActor ! DoCheckpoint (time) 





generatejJobs 方 法 的 处 理 步骤 如 下 。 




















1) 调用 ReceiverTracker 的 allocateBlocksToBatch 方 法 ， 实 际 是 调用 ReceivedBlockTracker 的 allocateBlocksToBatch 方 法 ， 见 代码 清单 9-58 和 代码 清单 9-59。 




















代码 清单 9-58 ReceiverTracker 的 allocateBlocksToBatch 方 法 


def allocateBlocksToBatch (batchTime: Time): Unit = { 
if (receiverInputStreams.nonEmpty) { 
receivedBlockTracker.allocateBlocksToBatch (batchTime) 
} 


代码 清单 9-59 ”ReceivedBlockTracker 的 allocateBlocksToBatch 方 法 





def allocateBlocksToBatch (batchTime: Time): Unit = synchronized { 

if (lastAllocatedBatchTime == null || batchTime > lastAllocatedBatchTime) { 

val streamIdToBlocks = streamIds.map { streamId => 
(streamId, getReceivedBlockQueue (streamId) .dequeueAll (x => true) ) 

} .toMap 
val allocatedBlocks = AllocatedBlocks (streamIdToBlocks) 
writeToLog (BatchAllocationEvent (batchTime, allocatedBlocks) ) 
timeToAllocatedBlocks (batchTime) = allocatedBlocks 
lastAllocatedBatchTime = batchTime 
allocatedBlocks 

} else { 
logInfo(s"Possibly processed batch $batchTime need to be processed again in WAL recovery") 


} 























调用 getReceivedBlockQueue 方 法 获取 ReceivedBlockQueue， 并 将 ReceivedBlockQueue 中 的 ReceivedBlocklnfo 全 部 出 列 后 封装 为 AllocatedBlocks， 见 代码 清单 9-60。 最 后 将 AllocatedBlocks 注 
册 到 timeToAllocatedBlocks=new mutable.HashMap[Time，AllocatedBlocks] 中 并 更 新 最 后 分 配 批 次 的 时 间 lastAllocatedBatchTime 后 返回 AllocatedBlocks。 


代码 清单 9-60 ReceivedBlockTracker.scala 中 AllocatedBlocks 的 实现 








private [streaming] 

case class AllocatedBlocks (streamIdToAllocatedBlocks: Map[Int, Seq[ReceivedBlockInfo]]) { 
def getBlocksOfStream(streamId: Int): Seq[ReceivedBlockInfo] = { 
streamIdToAllocatedBlocks.get (streamId) .getOrElse (Seq. empty) 

} 























2) 调用 DStreamGraph 的 generateJobs 方 法 生成 Job， 本 例 中 ， 实 际 调用 的 是 ForEachDStream 的 generateJob 方 法 ， 见 代码 清单 9-61 和 代码 清单 9-62。 

















代码 清单 9-61 DStreamGraph 的 generateJobs 方 法 





def generateJobs (time: Time): Seq[Job] = { 
logDebug ("Generating jobs for time " + time) 
val jobs = this.synchronized { 
outputStreams.flatMap (outputStream => outputStream.generateJob (time) ) 
} 
logDebug ("Generated " + jobs.length + " jobs for time " + time) 
jobs 


代码 清单 9-62 ”ForEachDStream 的 generateJob 方 法 





override def generateJob(time: Time): Option[Job] = { 
parent.getOrCompute (time) match { 
case Some(rdd) => 
val jobFunc = () => { 
ssc.sparkContext.setCallSite (creationSite) 
foreachFunc (rdd, time) 
} 
Some (new Job(time, jobFunc) ) 
case None => None 





generatejJob 方 法 中 通过 Dstream 的 getOrCompute 方 法 与 各 个 Dstream 的 compute 方 法 组 成 职责 链 模式 ， 因 而 依次 调用 顺序 如 下 : 





ForEachDstream 一 Dstream.getOrCompute 一 ShuffledDstream.Compute 一 Dstream.getOrCompute 一 MappedDstream.compute 一 Dstream.getOrCompute 一 FlatMappedDstream.comput' 





以 上 过 程 见 代码 清单 9-62~ 代 码 清单 9-67。 





代码 清单 9-63 ”Dstream 的 getOrCompute 方 法 





override def generateJob(time: Time): Option[Job] = { 
parent.getOrCompute (time) match { 
case Some(rdd) => 
val jobFunc = () => { 
ssc.sparkContext.setCallSite (creationSite) 
foreachFunc (rdd, time) 
} 
Some (new Job (time, jobFunc) ) 
case None => None 





代码 清单 9-64 ShuffledDstream 的 compute 方 法 





override def compute (validTime: Time): Option[RDD[(K,C)]] = { 
parent .getOrCompute (validTime) match { 
case Some (rdd) => Some (rdd.combineByKey[C] ( 
createCombiner, mergeValue, mergeCombiner, partitioner, mapSideCombine) ) 
case None => None 





代码 清单 9-65 MappedDSstream 的 compute 方 法 


override def compute (validTime: Time): Option[RDD[U]] = { 
parent .getOrCompute (validTime) .map (_.map[U] (mapFunc) ) 
} 





代码 清单 9-66 FlatMappedDStream 的 compute 方 法 








override def compute (validTime: Time): Option[RDD[U]] = { 
parent .getOrCompute (validTime) .map (_.flatMap (flatMapFunc) ) 
} 





代码 清单 9-67 ”ReceiverInputDStream 的 compute 方 法 


override def compute (validTime: Time): Option[RDD[T]] = { 
val blockRDD = { 
if (validTime < graph.startTime) { 
new BlockRDD[T] (ssc.sc, Array.empty) 
} else { 
val blockInfos = 


ssc.scheduler.receiverTracker.getBlocksOfBatch (validTime) .get (id) .getOrElse (Seq.empty) 


val blockStoreResults = blockInfos.map { _.blockStoreResult } 
val blockIds = blockStoreResults.map { _.blockId.asInstanceOf[BlockId] }.toArray 
val resultTypes = blockStoreResults.map { _.getClass }.distinct 


if (resultTypes.size > 1) { 


logWarning ("Multiple result types in block information, WAL information will be ignored.") 


} 
if (resultTypes.size == 1 && resultTypes.head == classOf [WriteAheadLogBasedStoreResult]) { 


val logSegments = blockStoreResults.map { 
_-asInstanceOf [WriteAheadLogBasedStoreResult] . segment 


}.toArray 
new WriteAheadLogBackedBlockRDD[T] (ssc.sparkContext, 


blockIds, logSegments, storeInBlockManager = true, StorageLevel.MEMORY_ONLY_SER) 


} else { 
new BlockRDD[T] (ssc.sc, blockIds) 


} 


} 
Some (blockRDD) 





ReceiverlnputDstream 的 compute 方 法 调用 ReceiverTracker 的 getBlocksOfBatch 方 法 获取 AllocatedBlocks 中 的 streamldToAllocatedBlocks: Map[int，Seq[ReceivedBlockInfo]]， 见 代码 清单 9- 





68 和 代码 清单 9-69。 然 后 取出 每 个 ReceivedBlocklnfo 的 blockSstoreResult， 再 取出 每 个 blockStoreResult 的 Blockld 及 








BlockRDD 转 换 为 FlatMappedRDD， 回调 MappedDStream 的 map 方 法 时 将 FlatMappedRDD 转 换 为 MappedRDD， 
ShuffledMapRDD， 最 终 回 调 ForEachDSstream 将 RDD 与 jobFunc 封 装 为 Job。 最 后 将 所 有 返 











回 








代码 清单 9-68 ReceiverTracker 的 getBlocksOfBatch 方 法 





def getBlocksOfBatch (batchTime: Time): Map[Int, Seq[ReceivedBlockInfo]] = { 
receivedBlockTracker.getBlocksOfBatch (batchTime) 
} 

















类 型 信息 ， 最 终生 成 BlockRDD。 回 调 FlatMappedDStream 的 flatMap 方 法 时 会 将 











调 ShuffledDStream 的 combineByKey 方 法 时 将 MappedRDD 转 换 为 


回 








的 job 封装 为 JobSset 后 调用 Jobscheduler 的 submitJobset 方 法 。 





代码 清单 9-69 ReceivedBlockTracker 的 getBlocksOfBatch 方 法 





def getBlocksOfBatch (batchTime: Time): Map[Int, Seq[ReceivedBlockInfo]] = synchronized { 
timeToAllocatedBlocks.get (batchTime) .map { _.streamIdToAllocatedBlocks }.getOrElse (Map.empty) 


} 





submitJobSet 方 法 中 将 Job 封 装 为 JobHandler， 见 代码 清单 9-70， 然 后 通过 线程 执行 JobHandler 中 Job 的 run 方 法 ， 见 代码 清单 9-71。 


代码 清单 9-70 Jobscheduler 的 submitJobset 方 法 





def submitJobSet (jobSet: JobSet) { 
if (jobSet.jobs.isEmpty) { 
logInfo("No jobs added for time " + jobSet.time) 
} else { 
jobSets.put (jobSet.time, jobSet) 
jobSet .jobs. foreach (job => jobExecutor.execute (new JobHandler (job) )) 
logInfo ("Added jobs for time " + jobSet.time) 





代码 清单 9-71 JobScheduler.scala 中 JobHandler 的 run 方 法 





private class JobHandler (job: Job) extends Runnable { 
def run() { 
eventActor ! JobStarted (job) 
PairRDDFunctions .disableOutputSpecValidation.withValue (true) { 
job.run () 


} 
eventActor ! JobCompleted (job) 
































Job 的 run 方 法 ( 见 代 码 清单 9-72) 实际 调用 了 创建 Job 时 使 用 的 jobFunc 函 数 ， 进 而 调用 foreachFunc。 本 例 中 foreachFunc 即 为 代码 清单 9-16 中 的 foreachFunc 函 数 。foreachFunc 函 数 中 调用 了 
































RDD 的 take 方 法 ， 而 take 方 法 不 断 调 用 SparkContext 的 runJob 方 法 提交 任务 ， 见 代码 清单 9-73。 














代码 清单 9-72 Job 的 run 方 法 





























def run() { 
result = Try(func()) 
} 





代码 清单 9-73 ”RDD 的 take 方 法 





def take (num: Int): Array[T] = { 
if (num = 0) { 
return new Array[T] (0) 
} 
val buf = new ArrayBuffer [T] 
val totalParts = this.partitions.length 
var partsScanned = 0 
while (buf.size < num && partsScanned < totalParts) { 
var numPartsToTry = 1 
if (partsScanned > 0) { 
if (buf.size == 0) { 
numPartsToTry = partsScanned * 4 
} else { 


numPartsToTry = Math.max((1.5 * num * partsScanned / buf.size).toInt - partsScanned, 1) 


numPartsToTry = Math.min(numPartsToTry, partsScanned * 4) 
} 
} 

val left = num - buf.size 

val p = partsScanned until math.min(partsScanned + numPartsToTry, totalParts) 

val res = sc.rundob(this, (it: Iterator[T]) => it.take(left).toArray, p, allowLocal = true) 

res.foreach(buf ++= _.take(num - buf.size)) 

partsScanned += numPartsToTry 
} 
buf.toArray 





Ore 


虽然 每 个 job 只 会 调用 一 次 take 方 法 ， 但 是 如 果 传 递 给 take 的 参数 值 较 大 ， 可 能 导致 一 次 运行 runJob 返 回 的 记录 数 不 足 ， 那 么 take 方 法 中 的 循环 体 将 会 运行 多 次 runJob ， 直 到 buf 的 size 达 到 take 参 数 的 要 求 。 


此 外 ，take 方 法 还 会 尝试 从 多 个 partition 上 运行 runJob。 











Jobscheduler 产 生 并 提交 执行 的 任务 要 加 工 的 数据 在 哪里 ?在 生成 Job 的 过 程 中 ， 调 用 ReceiverlnputDStream 的 compute 方 法 会 生成 WriteAheadLogBackedBlockRDD 或 者 BlockRDD。take 方 法 中 
执行 [unJob 也 会 触发 6.1 节 的 过 程 ， 和 迭代 执行 各 个 RDD 的 compute 方 法 。 以 默认 生成 的 BlockRDD 为 例 ， 它 的 compute 方 法 通过 调用 BlockManager 的 get 方 法 获取 blockPushingThread 生 成 的 Block， 这 样 
就 有 了 要 计算 的 数据 了 ， 见 代码 清单 9-74。 
































BlockManager 的 get 方 法 已 在 4.8.11 节 介绍 过 ， 此 处 不 再 袭 述 。 


代码 清单 9-74 BlockRDD 的 compute 方 法 





override def compute(split: Partition, context: TaskContext): Iterator[T] = { 

assertValid() 
val blockManager = SparkEnv.get.blockManager 
val blockId = split.asInstanceOf [BlockRDDPartition] .blockId 
blockManager.get (blockId) match { 

case Some(block) => block.data.asInstanceOf [Iterator [T]] 

case None => 

throw new Exception ("Could not compute split, block " + blockId + " not found") 








流 式 计 算 的 整个 过 程 远 比 一 般 的 执行 流程 要 长 ， 所 以 源码 分 析 过 程 需要 读者 仔细 认真 。 为 了 让 读者 看 得 明白 ， 笔 者 尽 可 能 保留 Spark 中 的 源码 。 这 样 一 来 势必 增加 了 一 些 篇 幅 ， 但 降低 了 读者 阅读 的 门 
槛 ， 笔 者 认为 还 是 值得 的 。 














我 们 在 nc 命令 下 输入 图 9-11 中 的 字符 。 





a 
a 
a 
C 
C 
c 
d 
d 
e 
f 





图 9-11 nc 命令 下 输入 的 字符 














Spark Streaming 的 输出 片段 如 图 9-12 所 示 。 


Time: 1437476660000 ms 


Time: 1437476670000 ms 





图 9-12 Spark Streaming 的 输出 片段 





代码 清单 3-36 中 的 reviveOffers 




















答 这 个 问题 前 ， 先 回顾 下 5.4.5 节 介绍 LocalActor 接 收 到 reviveOffers 消 息 的 处 理 一 一 使 














这 里 笔者 需要 回答 欠 下 读者 的 一 个 问题 ， 还 记得 本 机 一 开始 的 local[2] 吗 ? 在 回 
创建 WorkerOffer。WorkerOffer 的 创建 依赖 于 变量 freeCores。Local[2] 部 署 模式 将 设置 freeCores 的 初始 值 为 2。 





如 果 你 细心 查看 本 节 的 目录 设置 ， 就 不 难 发 现 答案 。9.5.2 节 详解 了 startReceivers 方 法 中 执行 的 runJob 方 法 ， 这 个 任务 将 驻 留 在 executor 中 ， 构 成 Spark Streaming 的 执行 环境 。 此 时 ，freeCores 减 小 
一 个 CPU 内 核 。 因 此 local 模 式 下 设置 的 内 核 数 不 得 小 于 2。 

















为 1。9.5.3 节 的 JobGenerator 不 断 创 建 Job， 并 执行 runJob， 不 过 这 些 Job 是 顺序 提交 的 ， 所 以 还 有 一 个 任务 占 




















96 ”窗口 操作 
Spark Streaming 还 提供 了 窗口 计算 ， 即 可 以 转换 滑动 窗口 内 的 数据 。 图 9-13 展 示 了 滑动 窗口 模型 。 
time | time 2 time 3 time 4 time 5 
original i C] [C] 
I 
DStream 1 





window-based 







operation 
windowed 
DStreaam {F i e a A > 
window window window 
at time 1 at time 3 at time 5 


图 9-13 ”滑动 窗口 模型 














操作 ， 并 且 窗口 滑动 两 个 数据 单元 。 这 说 明 任何 窗口 操作 都 需要 























展示 的 例子 以 三 个 最 近 的 数据 单元 作为 窗 

















每 次 窗口 都 在 源 Dstream 上 滑动 ， 窗 口内 的 RDD 将 被 合并 生成 窗口 Dstream 内 的 RDD。 图 中 











指定 两 个 参数 : 


“ 窗口 长 度 : 窗口 的 周期 长 度 。 


+ 滑动 间隔 : 窗口 转换 的 间隔 。 





根据 9.5.3 节 的 描述 ， 在 生成 任务 阶段 发 生 了 Dstream 的 迭代 转换 RDD 的 过 程 。 我 们 只 需要 查看 WindowedDStream 是 如 何在 这 一 阶段 转换 的 就 能 明白 





代码 清单 9-75 WindowedDstream 的 compute 方 法 


override def compute (validTime: Time): Option[RDD[T]] 
val currentWindow 
val rddsInWindow parent .slice (currentWindow) 
val windowRDD = if (rddsInWindow.flatMap(_.partitioner) .distinct.length == 1) { 
logDebug ("Using partition aware union for windowing at " + validTime) 
new PartitionerAwareUnionRDD(ssc.sc, rddsInWindow) 
} else { 
logDebug ("Using normal union for windowing at " + validTime) 
new UnionRDD(ssc.sc, rddsInWindow) 


= 


} 
Some (windowRDD) 





窗 





滑动 的 实现 ， 见 代码 清单 9-75。 








new Interval (validTime - windowDuration + parent.slideDuration, validTime) 





WindowedDstream 的 compute 方 法 的 执行 步骤 如 下 。 
1) 计算 滑动 间隔 ， 滑 动 时 间 由 起 始 时 间 和 结束 时 间 组 成 ， 见 代码 清单 9-76。 
起 始 时 间 = 当 前 有 效 时 间 - 窗 口 周期 时 长 十 父 级 Dstream 的 滑动 周期 时 长 


结束 时 间 = 





前 有 效 时 间 





2) 滑动 窗口 ， 





其 实现 见 代码 清单 9-77 和 代码 清单 9-78。 





3) 生成 windowRDD， 如 果 滑 动 窗口 的 数量 是 1， 则 创建 PartitionerAwareUnionRDD， 否 则 创建 UnionRDD。 


代码 清单 9-76 ”Interval 的 实现 





private [streaming] 
class Interval(val beginTime: Time, val endTime: Time) { 
def this (beginMs: Long, endMs: Long) this (new Time (beginMs), new Time (endMs) ) 
def duration(): Duration endTime - beginTime 
def + (time: Duration): Interval = { 
new Interval (beginTime + time, endTime + time) 


} 
def 


(time: Duration): Interval = { 
new Interval (beginTime - time, endTime - time) 


} 


def < (that: Interval): Boolean = { 
if (this.duration != that.duration) { 
throw new Exception ("Comparing two intervals with different durations [" + this +", " 
+ that + "]") 


} 
this.endTime < that.endTime 


} 


def <= (that: Interval) = (this < that || this == that) 

def > (that: Interval) ! (this <= that) 

def >= (that: Interval) = ! (this < that) 

override def toString = "[" + beginTime + ", " + endTime + "]" 





代码 清单 9-77 Dstream 的 slice 方 法 


def slice(interval: Interval): Seq[RDD[T]] = { 
slice (interval.beginTime, interval.endTime) 


i 





代码 清单 9-78 ”Dstream 重 载 的 slice 方 法 








def slice (fromTime: Time, toTime: Time): Seq[RDD[T]] 
if (!isInitialized) { 
throw new SparkException(this + " has not been initialized") 


=t 


if (!(fromTime - zeroTime) .isMultipleOf(slideDuration)) { 
logWarning ("fromTime (" + fromTime + ") is not a multiple of slideDuration (" 
+ slideDuration + ")") 


if (!(toTime - zeroTime) .isMultipleOf(slideDuration)) { 
logWarning("toTime ("+ fromTime + ") is not a multiple of slideDuration (" 
+ slideDuration + ")") 
} 
val alignedToTime toTime.floor (slideDuration) 
val alignedFromTime fromTime. floor (slideDuration) 
logInfo ("Slicing from " + fromTime + " to " + toTime + 
" (aligned to " + alignedFromTime + " and " + alignedToTime + ")") 
alignedFromTime.to(alignedToTime, slideDuration) .flatMap(time => { 
if (time >= zeroTime) getOrCompute (time) else None 


}) 





9.7 ”应 用 举例 

















本 章 一 开始 就 列举 过 Spark Streaming 支 持 多 种 数据 源 ， 
的 重要 组 成 部 分 。 该 协议 支持 所 有 平台 ， 几 乎 可 以 把 所 有 联网 物品 和 外 部 连接 起 来 ， 被 
息 代 理 软 件 ， 它 提供 轻 量 级 的 ， 支 持 可 发 布 /可 订阅 的 消息 推送 模式 ， 使 设备 对 设备 之 间 
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本 节 就 以 mosquitto 作 为 MQTT 数 据 源 ， 使 














9.7.1 安装 mosquitto 


mosquitto 的 下 载 地 址 : http://mosquitto.org/download/ 





笔者 从 mosquitto 官 网 提供 的 下 载 地 址 选择 mosquitto-1.4.2.tar.gz 的 源码 包 进行 下 载 。 下 载 方法 如 下 : 


中 包括 MQTT (message queuing telemetry transport, 


消息 队列 遥测 传输 ) 。MQTT 是 IBM 开 发 的 一 个 即时 通信 协议 ， 有 可 能 成 为 物 联网 
器 (比如 通过 Twitteri 上 房屋 联网 ) 的 通信 协议 。mosquitto 是 一 款 实现 了 MQITT v3.1 的 开源 消 








的 短 消息 通信 变 得 简单 。 


Spark Streaming 对 mosquitto 推 送 的 数据 执行 word count 计 算 。 





wget http://mosquitto.org/files/source/mosquitto-1.4.2.tar.gz 





移动 到 选 好 的 安装 目录 ， 如 : 





my mosquitto-1.4.2.tar.gz http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15528/OEBPS/Text/../install/ 





进入 安装 目录 并 解压 缩 : 





cd http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15528/OEBPS/Text/../install/ 
tar zxvf mosquitto-1.4.2.tar.gz 





进入 mosquitto 根 目录 : 





cd mosquitto-1.4.2 





编译 、 安 装 : 





make 
sudo make install 

















到 9-14 所 示 。 








Gea . /mosquitto 

1437554 82: mosquitto version a: 4.2 tbat td date. 2015-07-22 16:37:44+0800) starting 
1437554392: Using default config. 

1437554392: Opening ipv4 listen socket on port 1883. 

1437554392: Opening ipv6 listen socket on port 1883. 

1437554392: warning: Address family not supported by protocol 

1437556172: New connection from 10.62.63.18 on port 1883. 

1437556172: New client connected from 10.62.63.18 as 全 天 1437556172139 (c1, k60). 
1437556187: Socket error on client wkm. 1437556172139, disconnecting. 





图 9-14 使 用 mosquitto 命 令 启 动 mosquitto 








可 以 看 到 mosquitto 默 认 的 监听 端口 是 1883， 使 用 netstat-nat 命 令 查看 mosquitto 的 监听 协议 ， 如 图 9-15 所 示 。 
所 以 mosquitto 的 broker 地 址 是 tcp: //10.218.142.118: 1883。 


A ~ 3 netstat -nat 

Active Internet connections (servers and established) 

Proto Recv-Q Send-Q Local Address Foreign State 
tcp .0:12201 LISTEN 
tcp LISTEN 
tcp LISTEN 
tcp LISTEN 
tcp LISTEN 
tcp LISTEN 
tcp LISTEN 
tcp LISTEN 
tcp LISTEN 
tcp LISTEN 
tcp LISTEN 
tcp LISTEN 
tcp LISTEN 
tcp LISTEN 
tcp LISTEN 
tcp LISTEN 
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9-15 ”使 用 netstat — nat 命令 查看 mosquitto 的 监听 协议 





Spark 源 码 中 已 有 现成 的 使 用 MQTT 的 例子 MQTTWordCount， 见 代码 清单 9-79。 


代码 清单 9-79 ”MQTT 的 例子 MQTTWordCount 





object MOTTWordCount { 
def main(args: Array[String]) { 

if (args.length < 2) { 

System.err.println ( 

"Usage: MQOTTWordCount <MqttbrokerUrl> <topic>") 

System. exit (1) 
} 
val Seq(brokerUrl, topic) = args.toSeq 
val sparkConf = new SparkConf () .setAppName ("MOTTWordCount") .setMaster ("local[2]"); 
val ssc = new StreamingContext (sparkConf, Seconds (2) ) 
val lines = MQTTUtils.createStream(ssc, brokerUrl, topic, StorageLevel.MEMORY_ONLY SER 2) 
val words = lines.flatMap(x => x.toString.split(" ")) T > = 
val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _) 
wordCounts.print () 
ssc.start () 
ssc.awaitTermination () 





MQTTWordCount 实 际 是 mosquitto 中 消息 或 者 说 是 主题 的 订阅 者 ， 所 以 我 们 需要 给 MQTT-WordCount 这 个 Scala 应 用 程序 增加 启动 参数 设置 mosquitto 的 broker 地 址 和 主题 ， 我 们 以 hello 作 为 一 个 
简单 的 主题 ， 如 图 9-16 所 示 。 











mosquitto 本 身 不 会 产生 消息 ， 需 要 一 个 发 布 者 ， 不 断 向 主题 hello 发 送 消 息 。Spark 源 码 中 已 有 现成 的 发 布 者 MQTTPublisher， 但 是 由 于 MQTTPublisher 发 送 消息 频率 过 高 ，mosquitto 会 拒绝 接收 ， 
所 以 笔者 在 代码 中 多 加 了 “Thread.sleep (10) ; ”， 见 代码 清单 9-80。 








Name: MQTTWordCount$ 


© Main | 四 = Arguments 、 BA JRE | “> Classpath 5 Source | M Environment! E] Common | 


A 
Program arguments: 


tcp://10.218.142.118:1883 hello 


Variables... | 

















9-16 ”增加 启动 参数 设置 mosquitto 的 broker 地 址 和 主题 








代码 清单 9-80 ”MQTTWordCount.scala 中 MQTTPublisher 的 实现 





object MQTTPublisher { 
var client: MgttClient = _ 
def main(args: Array[String]) { 
if (args.length < 2) { 
System.err.println("Usage: MQTTPublisher <MgttBrokerUrl> <topic>") 
System. exit (1) 
} 
StreamingExamples.setStreamingLogLevels () 
val Seq(brokerUrl, topic) = args.toSeq 
try { 
var peristance:MqttClientPersistence =new MqttDefaultFilePersistence ("/tmp") 
client = new MqttClient (brokerUrl, MgqttClient.generateClientId(), peristance) 
} catch { 
case e: MgttException => println("Exception Caught: " + e) 


client.connect () 

val msgtopic: MqttTopic = client.getTopic (topic) 

val msg: String = "hello mqtt demo for spark streaming" 

while (true) { 
val message: MgqttMessage = new MqttMessage (String.valueOf (msg) .getBytes ("utf-8")) 
msgtopic.publish (message) 
println ("Published data. topic: " + msgtopic.getName() + " Message: " + message) 
Thread.sleep (10) ; 


client .disconnect () 





MQTTPublisher 也 需要 设置 mosquitto 的 broker 地 址 和 主题 ， 设 置 过 程 与 MQTTWordCount 一 样 。 


我 们 首先 启动 MQTTWordCount， 然 后 启动 MQTTPublisher，MQTTPublisher 会 不 断 发 送 消 息 : 








hello mqtt demo for spark streaming 





MQTTWordCount 输 出 结果 的 片段 如 图 9-17 所 示 。 





Time: 1437558414660 ms 


(hello, 66) 
(streaming, 66) 
(spark,66) 


Time: 1437558416660 ms 


(hello,78) 
(streaming, 78) 
(spark, 78) 
(demo, 78) 
(for,78) 














9-17 MQTTWordCount 输 出 结果 的 片段 





9.8 小 结 





Spark Streaming 支 持 了 大 数据 中 常用 的 业务 场景 一 一 流 式 计算 。 已 经 内 置 了 对 多 种 数据 源 的 支持 ， 同 时 提供 PluggablelnputDStream 方 便 用 户 进行 更 多 数据 源 的 扩展 ， 提 升 了 Spark Streaming 的 可 
扩展 性 。 本 章 之 前 的 内 容 介绍 的 Spark 运 行 任务 都 只 会 在 Executor 中 驻 留 一 段 时 间 。Spark Streaming 为 了 解决 数据 源 的 持续 性 ， 首 先 创 建 一 个 驻 留 在 Executor 内 的 任务 提供 数据 流 的 持续 接 入 ， 并 不 断 生 
成 任务 去 拉 取 最 新 的 数据 并 计算 。 这 些 都 是 Spark Streaming 与 其 他 类 型 的 任务 所 不 同 的 。 











第 10 章 图 计算 


法 自 画 生 ， 画 自 法 立 ， 无 法 非 也 ， 终 于 有 法 亦 非 也 。 


一 一 潘 天 寿 
本 章 导读 


2010 年 ，Google 提 出 了 适合 复杂 机 器 学 习 的 分 布 式 图 计算 Pregel 框 架 。 同 年 ，CMU 的 Select 实 验 室 提 出 了 GraphLab 框 架 ，GraphLab 是 面向 机 器 学 习 的 流 处 理 并 行 框架 。GraphLab 基 于 最 初 的 并 行 概念 实现 了 
1.0 版 本 ， 在 机 器 学 习 的 流 处 理 并 行 性 能 方面 得 到 很 大 的 提升 ， 并 引起 业界 的 广泛 关注 。2012 年 GraphLab 升 级 到 2.1 版 本 ， 进 一 步 优 化 了 其 并 行 模型 ， 尤 其 是 自然 图 的 并 行 性 能 得 到 显著 改进 。 

















早 在 0.5 版 本 ，Spark 就 带 了 一 个 小 型 的 Bagel 模 块 ， 提 供 了 类 似 Pregel 的 功能 。 随 着 对 图 计算 需求 的 增 大 ，Spatk 开 始 设计 自己 的 分 布 式 图 计算 框架 GraphX。 通 过 扩展 RDD， 实 现 了 图 的 高 层次 抽象 一 由 顶 
点 和 边 构成 的 属性 图 。 为 了 支持 图 计算 ，GraphX 暴 露 了 一 个 包含 基础 操作 (例如 subgraph、joinVertices 和 aggregateMessages) 的 集合 以 及 对 Pregel API 的 优化 版 本 。 现 在 ，GraphX 还 在 不 断 增加 图 的 算法 集合 并 
简化 图 的 分 析 任务 。 





















































10.1 Spark GraphX 总 体 设计 


Spark 中 目前 与 图 计算 有 关 的 部 分 包括 : Bagel 和 GraphX。 本 章 主要 介绍 GraphX， 在 正式 开始 之 前 ， 我 们 先 从 计算 模型 角度 介绍 一 些 概念 。 





10.11 图 计算 模型 


目前 的 图 计算 框架 基本 上 都 遵循 BSP (bulk synchronous parallell， 整 体 同步 并 行 ) 计算 模式 。 BSP 模式 如 图 10-1 所 示 。 


Processors 








Local 
Computation 






Communication 


Barrier 
Synchronization 








10-1 BSP 模式 








BSP 模式 中 有 以 下 概念 : 
“ Processors: 并 行 计算 进程 ， 它 对 应 到 集群 中 的 多 个 节点 ， 每 个 节点 可 以 有 多 个 Processor; 


“ LocalComputation: 单个 Processor 的 计算 ， 每 个 Processor 都 会 切 分 一 些 节点 作 计算 ; 





- Communication: Processot 之 间 的 通信 。 在 BSP 模型 中 ， 对 图 节点 的 访问 分 布 到 了 不 同 的 Processot 中 ， 有 时 哪怕 是 关系 紧密 具有 局 部 聚 类 特点 的 节点 也 未 必 会 分 布 到 同一 个 Processot 或 同一 个 集群 节点 
上 ， 所 有 需要 用 到 的 数据 都 需要 通过 Processor 之 间 的 消息 传递 来 实现 同步 ; 











BarrierSynchronization: 栅栏 同步 ， 每 一 次 同步 标志 着 上 一 个 超 步 的 完成 和 下 一 个 超 步 的 开始 ; 
“ Superstep: 超 步 ， 对 应 于 BSP 的 一 次 计算 和 迭代 。 


基于 BSP 模式 ， 目 前 有 两 种 比较 成 熟 的 图 计算 模型 : Pregel 模 型 和 GAS 模型 。 














由 于 GraphX 主 要 基于 Pregel 实 现 ， 所 以 我 们 重点 理解 下 Pregel 模 型 的 原理 。 在 Pregel 计 算 模型 中 ， 输 入 是 一 个 有 向 图 ， 该 有 向 图 的 每 一 个 顶点 都 有 一 个 标识 符 以 及 与 之 对 应 的 值 。 每 一 条 有 向 边 都 和 其 
源 顶 点 关联 ， 并 且 记 录 自 身 的 值 和 目标 项 点 的 标识 符 。 


一 个 典型 的 Pregel 计 算 过 程 如 下 : 


1) 读 取 图 数据 并 对 图 初始 化 ; 

















2) 当 图 被 初始 化 完毕 ， 执 行 一 系列 的 超 步 直到 整个 计算 结束 ， 这 些 超 步 之 间 通 过 一 些 全 局 的 同步 点 分 隔 ; 











3) 输出 计算 结果 。 





























在 每 个 超 步 中 ， 顶 点 的 计算 都 是 并 行 的 ， 每 个 顶点 执行 相同 的 用 于 表达 给 定 算法 逻辑 的 用 户 自 定义 函数 。 每 个 顶点 都 可 以 修改 自身 及 出 边 的 状态 ， 接 收 前 一 个 超 步 〈S-1) 中 发 送 给 它 的 消息 ， 并 发 送 消 
息 给 其 他 顶点 (这些 消息 将 会 在 下 一 个 超 步 中 被 接收 ) ， 甚 至 是 修改 整个 图 的 拓扑 结构 。 边 在 这 种 计算 模式 中 并 不 是 核心 对 象 ， 没 有 相应 的 计算 运行 在 其 上 。 












































算法 结束 的 时 机 取决 于 所 有 的 顶点 是 否 都 已 经 投票 (vote) 标识 自身 已 经 达到 halt 状 态 。 在 第 0 个 超 步 ， 所 有 顶点 都 处 于 active 状 态 ， 所 有 的 active 顶 点 都 会 参与 对 应 超 步 中 的 计算 。 顶 点 通过 将 其 自身 























消息 后 进入 active 状 态 ， 那 么 在 随后 的 计算 中 该 顶点 必须 显 式 的 deactive。 整 个 计算 在 所 有 顶点 都 达到 inactive 状 态 ， 并 且 没 有 消息 要 传送 时 结束 。 这 种 简单 的 状态 机 如 图 10-2 所 示 。 






































为 了 帮助 读者 对 Pregel 有 更 深入 的 了 解 ， 以 Pregel 的 最 大 值 计 算 过 程 为 例 ， 其 计算 执行 过 程 如 图 10-3 所 示 ， 其 中 实 线 箭头 表示 图 的 链接 关系 ， 而 节点 内 的 数字 代表 节点 的 当前 数值 ， 虚 线 代表 不 同 超 步 
之 间 的 消息 传递 关系 ， 灰 色 节点 是 不 活跃 节点 。 在 每 个 超 步 中 ， 每 个 节点 将 自身 的 数值 通过 链接 关系 发 送 给 其 他 节点 ， 接 收 到 消息 的 节点 将 接收 到 的 所 有 消息 的 最 大 值 ( 记 为 M) 与 自身 数值 ( 记 为 C) 比 
较 ， 如 果 M > C， 那 么 C = M ;否则 当前 节点 变 为 不 活跃 状态 。 




















Vote to halt 






Inactive 





Message received 


10-2 ”BSP 模式 的 简单 状态 机 














6 ) Superstep 3 











10-3 ”Pregel 的 最 大 值 计算 























我 们 从 左 到 右 将 4 个 节点 依次 记 为 A、B、C、D， 并 对 图 10-3 中 Pregel 的 最 大 值 计算 作 个 简单 介绍 。 











1) 第 0 步 超 步 ， 所 有 节点 都 是 活跃 的 。 从 左 到 右 ，A 节 点 收 到 B 节 点 的 消息 6， 发 现 6 比 A 节 点 自身 数值 3 大 ，A 节 点 将 会 在 进入 下 一 个 超 步 前 将 自身 数值 更 新 为 6，B 节 点 同时 收 到 A 节 点 和 (人 节点 的 消息 ， 
这 两 条 消息 的 最 大 值 是 3，3 比 B 节 点 自身 数值 6 小 ，B 节 点 将 会 在 进入 下 一 个 超 步 前 将 自身 设置 为 不 活跃 状态 ; C 节 点 收 到 D 节 点 的 消息 1， 发 现 1 比 C 节 点 自身 数值 2 小 ，C 节 点 将 会 在 进入 下 一 个 超 步 前 将 自身 
设置 为 不 活跃 状态 ; D 节 点 同时 收 到 B 节 点 和 C 节 点 的 消息 ， 这 两 条 消息 的 最 大 值 是 6，6 比 D 节 点 自身 数值 1 大 ，D 节 点 将 会 在 进入 下 一 个 超 步 前 将 自身 数值 更 新 为 6。 











































































































2) 第 1 步 超 步 ，A、D 节 点 是 活跃 的 。A 节 点 收 到 B 节 点 的 消息 6， 发 现 6 与 A 节 点 自身 数值 6 一 样 大 ，A 节 点 将 会 在 进入 下 一 个 超 步 前 将 自身 设置 为 不 活跃 状态 ; B 节 点 同时 收 到 A 节 点 和 (人 节点 的 消息 ， 这 
两 条 消息 的 最 大 值 是 6，6 与 B 节 点 自身 数值 6 一 样 大 ，B 节 点 在 下 一 个 超 步 自 身 仍 将 处 于 不 活跃 状态 ; C 节 点 收 到 D 节 点 的 消息 6， 发 现 6 比 C 节 点 自身 数值 2 大 ，C 节 点 将 会 在 进入 下 一 个 超 步 前 将 自身 数值 更 新 
为 6， 并 处 于 活跃 状态 ; D 节 点 同时 收 到 B 节 点 和 C 节 点 的 消息 ， 这 两 条 消息 的 最 大 值 是 6，6 与 D 节 点 自身 数值 6 一 样 大 ，D 节 点 将 会 在 进入 下 一 个 超 步 前 将 自身 设置 为 不 活跃 状态 。 

















































































































3) 第 2 步 超 步 ，C 节 点 是 活跃 的 。A 节 点 收 到 B 节 点 的 消息 6， 发 现 6 与 A 节 点 自身 数值 6 一 样 大 ，A 节 点 在 下 一 个 超 步 自身 仍 将 处 于 不 活跃 状态 ; B 节 点 同时 收 到 A 节 点 和 (节点 的 消息 ， 这 两 条 消息 的 最 大 
值 是 6，6 与 B 节 点 自身 数值 6 一 样 大 ，B 节 点 在 下 一 个 超 步 自身 仍 将 处 于 不 活跃 状态 ; C 节 点 收 到 D 节 点 的 消息 6， 发 现 6 与 C 节 点 自身 数值 6 一 样 大 ，(C 节 点 将 会 在 进入 下 一 个 超 步 前 将 自身 设置 为 不 活跃 状态 ; 
D 节 点 同时 收 到 B 节 点 和 C 节 点 的 消息 ， 这 两 条 消息 的 最 大 值 是 6，6 与 D 节 点 自身 数值 6 一 样 大 ，D 节 点 在 下 一 个 超 步 自身 仍 将 处 于 不 活跃 状态 。 










































































4) 第 3 步 超 步 ， 所 有 节点 都 是 不 活跃 的 。 由 于 所 有 节点 都 到 达 不 活路 状态， 任务 结束 。 


10.1.2 属性 图 





页 点 和 边 都 带 有 属性 信息 的 图 。 多 个 边 有 可 能 共享 同一 个 源 或 者 顶点 。 每 个 顶点 的 VertexID 由 一 个 64 位 长 度 的 标识 符 表 示 。GraphX 不 会 对 顶点 标识 符 作 任何 排序 约束 。 同 样 ， 每 个 边 


a) 








什么 是 属性 图 
具有 相应 的 源 和 目的 顶点 的 标识 符 。 当 顶点 和 边 是 原生 数据 类 型 (比如 long、double 等 ) 时 ， 将 它们 存储 在 专门 的 数组 中 ， 这 样 可 减 小 内 存 占 用 。 
























































在 某 些 情况 下 ， 用 户 希 望 一 张 图 中 的 顶点 拥有 不 同 的 属性 类 型 。 这 可 以 通过 继承 来 实现 。 例 如 ， 以 用 户 和 产品 为 二 分 图 为 例 ， 我 们 可 以 像 代码 清单 10-1 这 样 做 。 

















代码 清单 10-1 自 定义 顶点 属性 





class VertexProperty () 

case class UserProperty(val name: String) extends VertexProperty 

case class ProductProperty(val name: String, val price: Double) extends VertexProperty 
// 使 用 自 定 义 属性 生成 的 graph 可 能 会 是 下 面 的 类 型 : 

var graph: Graph[VertexProperty, String] = null 





























还 支持 分 布 式 和 容错 。 原 始 图 的 主要 部 分 在 新 图 中 会 被 重用 ， 以 降低 固有 功能 数据 结构 的 成 本 。 
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属性 图 本 身 是 不 可 改变 的 ， 只 能 通过 创建 新 的 、 期 望 改变 的 图 来 达到 改变 图 中 的 值 或 者 结构 。 属 
executor 使 用 范围 划分 顶点 的 方式 分 割 图 。 图 中 的 每 个 partition 都 可 以 在 不 同 的 机 器 上 在 失败 后 重建 。 

































































我 们 来 看 看 Graph 的 基本 结构 ， 见 代码 清单 10-2。 


代码 清单 10-2 ”Graph 的 基本 结构 





abstract class Graph[VD: ClassTag, ED: ClassTag] protected () extends Serializable 
@transient val vertices: VertexRDD[VD] 
@transient val edges: EdgeRDD[ED] 
@transient val triplets: RDD[EdgeTriplet[VD, ED]] 




















VertexRDDIVD] 和 EdgeRDD[ED] 分 别 继承 了 RDD[ (VertexID, VD) ] 和 RDDIEdge[ED]]， 并 围绕 图 形 计算 和 存储 ， 提 供 了 额外 的 功能 的 内 部 优化 。 假 设 要 构建 一 个 属性 图 ， 其 中 包括 对 GraphX 项 目的 
各 种 合作 者 。 项 点 属性 可 能 包含 用 户 名 和 职业 ， 可 以 在 边 上 添加 注释 描述 合作 者 闻 的 关系 ， 如 图 10-4 所 示 。 


Property Graph Vertex Table 


Advisor Property (V) 







































(jgonzal, postdoc) 
(franklin, professor) 
(istoica, professor) 


Property (E) 


Collaborator 


jgonzal, istoica Colleague 


pst.doc. prof. a 


图 10-4 ”属性 图 的 构建 





最 终 的 图 将 会 是 如 下 的 类 型 签名 。 








val userGraph: Graph[(sString, String), String 
































。 最 通用 的 方法 可 能 是 使 用 Graph 对 象 。 例 如 ， 可 以 使 用 代码 清单 10-3 中 的 RDD 集 合 构造 一 个 图 。 
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可 以 使 用 文件 、RDD 等 多 种 方式 构成 属 














代码 清单 10-3 ”构造 属性 图 示例 








// 假设 SparkContext 已 经 构建 完成 
val sc: SparkContext 
// 为 所 有 顶点 创建 RDD 
val users: RDD[(VertexId, (String, String))] = 
sc.parallelize (Array ( (3L, ("rxin", "student")), (7L, ("jgonzal", "postdoc")), 
(5L, ("franklin", "prof")), (2L, ("istoica", "prof")))) 
// 为 所 有 边 创建 RDD 
val relationships: RDD[Edge[String]] = 
sc.parallelize (Array (Edge (3L, 7L, "collab"), Edge (5L, 3L, "advisor"), 
Edge (2L, 5L, "colleague"), Edge(5L, 7L, "pi"))) 
// 定义 一 个 默认 用 户 与 未 知 的 用 户 的 关系 
val defaultUser = ("John Doe", "Missing") 
// 构建 初始 化 的 Graph 
val graph = Graph(users, relationships, defaultUser) 












































在 上 边 的 例子 中 ， 我 们 看 到 边 同时 拥有 源 顶 点 的 VertexID 和 目的 顶点 的 VertexID， 还 拥有 自身 的 属性 。 还 能 直接 通过 Graph 对 象 对 其 中 的 顶点 和 边 进行 条 件 过 滤 和 计数 ， 见 代码 清单 10-4。 


代码 清单 10-4 ”过滤 与 计数 





val graph: Graph[ (String, String), String] // 上 边 例子 中 构建 的 Graph 

// 对 所 有 职位 是 postdocs 的 用 户 计数 

graph.vertices.filter { case (id, (name, pos)) => pos == "postdoc" }.count 
// 统计 出 源 顶 点 的 VertexId 大 于 目标 顶点 的 VertexId 的 边 数 

graph.edges.filter(e => e.srcId > e.dstId) .count 

graph.edges.filter { case Edge(src, dst, prop) => src > dst }.count 











还 可 以 使 用 SQL 表达 式 ， 如 代码 清单 10-5。 











代码 清单 10-5 ”SQL 表达 式 





SELECT src.id, dst.id, src.attr, e.attr, dst.attr 
FROM edges AS e LEFT JOIN vertices AS src, vertices AS dst 
ON e.srcId = src.Id AND e.dstId = dst.Id 
































EdgeTriplet 继 承 了 Edge， 并 且 添 加 了 srcAttr 和 dstAttr 用 来 保护 源 顶 点 和 目的 顶点 的 属性 。Vertices、Edges 和 Triplets 可 以 用 图 10-5 表 示 。 








Vertices: Edges: ES (Bn) Triplets: 上 上- B 


图 10-5 ”Vertices、Edges 和 Triplets 的 比较 











代码 清单 10-6 演 示 了 如 何 使 用 EdgeTriplet。 





代码 清单 10-6 ”EdgeTriplet 使 用 示例 








val graph: Graph[ (String, String), String] // 上 边 例 子 中 构建 的 Graph 
// 使 用 triplets 创 建 RDD 
val facts: RDD[String] = 
graph.triplets.map(triplet => 
triplet.srcAttr. 1+" is the " + triplet.attr + " of " + triplet.dstAttr. 1) 
facts.collect.foreach (print1n (_)) T 





10.1.3 ”GraphX 的 类 继承 体系 

















前 一 节 简 单 介绍 了 GraphX 中 一 些 API 的 使 用 ， 为 了 从 宏观 上 对 GraphX 的 API 有 个 把 握 ， 图 10-6 列 出 了 GraphX 的 类 继承 体系 ， 从 中 看 出 Graph 是 最 核心 的 类 ， 其 具体 实现 为 Graphlmpl，GraphOps 是 
符合 Scala 语 言 风格 的 实现 。Pregel 是 Spark 对 Pregel 模 型 的 具体 实现 ， 其 中 已 经 包括 了 最 短路 径 (ShortestPaths) 、 网 页 排名 (PageRank) 、 关 联 组 件 (ConnectedComponents) 等 。Graph 还 实现 
了 三 角形 计数 (TriangleCount) 。 
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10-6 ”GraphX 的 类 继承 体系 





10.2 图 操作 


图 的 操作 包括 两 部 分 : 
Graph 中 定义 的 经 过 优化 的 核心 操作 ; 


. GraphOps 中 定义 的 为 了 方便 用 组 合 方式 表示 的 操作 。 











Graph 中 的 部 分 操作 实际 隐 式 使 








了 GraphOps 中 的 操作 。 





10.2.1 属性 操作 





类 似 于 RDD 的 map 操 作 ， 属 性 图 含有 代码 清单 10-7 中 列 出 的 操作 。 








代码 清单 10-7 属性 操作 





SVDPlusPlus 





class Graph[VD, ED] { 

def mapVertices[VD2] (map: (VertexId, VD) => VD2): Graph[VD2, ED] 

def mapEdges[ED2] (map: Edge[ED] => ED2): Graph[VD, ED2] 

def mapTriplets[ED2] (map: EdgeTriplet[VD, ED] => ED2): Graph[VD, ED2] 
} 








上 面 的 每 个 函数 都 会 对 原 图 操作 后 产生 一 个 新 图 。 这 些 函 数 都 有 一 个 关键 的 特性 ， 那 就 是 最 终 产 生 的 Graph 可 以 重 
码 片段 不 会 保留 结构 化 指数 并 且 不 会 从 GraphX 系 统 的 优化 中 受益 。 








代码 清单 10-8 不 重用 原来 Graph 的 结构 

















原生 Graph 的 结构 。 下 面 的 代码 片段 在 逻辑 上 是 一 样 的 ， 但 是 代码 清单 10-8 中 的 代 





val newVertices = graph.vertices.map { case (id, attr) => (id, mapUdf(id, attr)) } 
val newGraph = Graph(newVertices, graph.edges) 





相反 ， 代 码 清单 10-9 中 使 用 mapVertices 函 数 会 保留 结构 化 指数 。 


代码 清单 10-9 ”重用 原来 Graph 的 结构 








val newGraph = graph.mapVertices((id, attr) => mapUdf(id, attr)) 





10.2.2 ”结构 操作 


目前 GraphX 仅 支持 一 些 简单 的 结构 操作 ，Spark 官 网 说 以 后 会 增加 更 多 。 这 些 基本 的 结构 操作 见 代 码 清单 10-10。 


代码 清单 10-10 ”结构 操作 





class Graph[VD, ED] { 
def reverse: Graph[VD, ED] 
def subgraph (epred: EdgeTriplet[VD,ED] => Boolean, 
red: (VertexId, VD) => Boolean): Graph[VD, ED] 
def mask[VD2, ED2] (other: Graph[VD2, ED2]): Graph[VD, ED] 
def groupEdges (merge: (ED, ED) => ED): Graph[VD,ED] 
} 





这 里 简要 介绍 下 这 些 结构 操作 的 功能 : 
“ reverse: 返回 包含 了 所 有 边 反 向 的 新 图 。 这 个 操作 很 有 用 ， 例 如 可 以 计算 反 向 的 PageRank。 
“ subgraph: 返回 顶点 满足 函数 vpred 的 过 滤 条 件 和 边 满足 函数 epred 的 过 滤 条 件 的 新 图 。 


- mask: 构建 一 个 包含 了 当前 Graph 和 输入 Graph 都 拥有 的 顶点 和 边 的 子 图 。 














- groupEdges: 合并 连接 了 同一 对 顶点 的 边 后 产生 的 新 图 。 被 合并 的 边 的 权重 也 会 合并 。 此 功能 常常 用 于 减 小 Graph 的 尺寸 。 


10.2.3 ”连接 操作 

















很 多 情况 下 都 需要 与 其 他 RDD 集 合 的 连接 操作 ， 可 以 使 用 代码 清单 10-11 中 的 这 些 操作 。 


代码 清单 10-11 ”连接 操作 





class Graph[VD, ED] { 
def joinVertices[U] (table: RDD[(VertexId, U)]) (map: (VertexId, VD, U) => VD) 


: Graph[VD, ED] 
def outerJoinVertices[U, VD2] (table: RDD[ (VertexId, U)]) (map: (VertexId, VD, Option[U]) => VD2) 


: Graph[VD2, ED]s 





这 里 简要 介绍 下 这 些 连 接 操作 的 功能 : 


“joinVertices: 对 顶点 和 输入 的 RDD 做 连接 操作 ， 返 回 包含 了 对 连接 结果 应 用 map 函 数 后 的 顶点 组 成 的 Graph。 连 接 时 没有 匹配 的 顶点 ， 保 留 原来 的 值 。 


“ outerJoinVertices: 与 joinVertices 方 法 类 似 ， 不 同 的 是 map 函 数 会 应 用 到 所 有 的 顶点 。 

















joinVertices 的 使 用 示例 见 代码 清单 10-12。 





代码 清单 10-12 joinVertices 的 使 用 示例 





val nonUniqueCosts: RDD[(VertexID, Double) ] 
val uniqueCosts: VertexRDD[Double] = 
graph.vertices.aggregateUsingIndex(nonUnique, (a,b) => a + b) 
val joinedGraph = graph. joinVertices (uniqueCosts) ( 
(id, oldCost, extraCost) => oldCost + extraCost) 











outerJoinVertices 的 使 用 示例 见 代码 清单 10-13。 











代码 清单 10-13 ”outerJoinVertices 的 使 用 示例 





val outDegrees: VertexRDD[Int] = graph.outDegrees 
val degreeGraph = graph.outerJoinVertices (outDegrees) { (id, oldAttr, outDegOpt) => 
outDegOpt match { 
case Some(outDeg) => outDeg 
case None => 0 // 出 度 为 none 意 味 着 出 度 为 0 





10.24 聚合 操作 






































在 很 多 Graph 的 分 析 任 务 中 ， 聚 合 兄弟 顶点 的 信息 是 关键 步 又。 例如 ， 想 要 知道 每 个 用 户 的 粉丝 数 以 及 这 些 粉 丝 的 平均 年 龄 ， 这 就 会 用 到 聚合 操作 。 很 多 迭代 图 的 算法 (例如 ，PageRank、Shortest 
Path, Connected component) 都 会 多 次 聚合 相 邻 顶点 的 属性 。 











1. 聚 合 消息 














的 顶点 上 聚合 。aggregateMessages 的 接口 定 









































GraphX 的 核心 聚合 操作 是 aggregateMessages， 这 个 操作 应 用 用 户 定 义 的 sendMsg 函 数 到 Graph 的 每 个 EdgeTriplet 上 ， 然 后 使 用 mergeMsg 函 数 在 
义 见 代码 清单 10-14。 





代码 清单 10-14 aggregateMessages 的 接口 定义 





class Graph[VD, ED] { 
def aggregateMessages [Msg: ClassTag] ( 
sendMsg: EdgeContext[VD, ED, Msg] => Unit, 
mergeMsg: (Msg, Msg) => Msg, 
tripletFields: TripletFields = TripletFields.Al1l) 
: VertexRDD [Msg] 





Oza 


GraphX 的 早期 版 本 提供 了 mapReduceTriplets 来 处 理 聚 合 操作 。aggregateMessages 相 比 于 mapReduceTriplets 有 很 大 的 性 能 提升 ， 所 以 Spark 官 网 建议 将 mapReduceTriplets 迁 移 到 aggregateMessages。 














现在 我 们 来 计算 每 个 用 户 的 粉丝 的 平均 年 龄 ， 见 代码 清单 10-15。 











代码 清单 10-15 aggregateMessages 使 用 示例 





// 导入 随机 graph 生 成 库 
import org.apache.spark.graphx.util.GraphGenerators 
// 创建 一 个 graph， 使 用 age 作为 顶点 属性 。 为 简单 起 见 ， 使 用 随机 的 graph 
val graph: Graph[Double, Int] = 
GraphGenerators.logNormalGraph(sc, numVertices = 100).mapVertices( (id, _) => id.toDouble ) 
// 计算 年 龄 比 用 户 自己 大 的 粉丝 的 数量 和 所 有 粉丝 的 年 龄 总 和 
val olderFollowers: VertexRDD[ (Int, Double)] = graph.aggregateMessages[ (Int, Double) ] ( 
triplet => { // Map 函 数 
if (triplet.srcAttr > triplet.dstAttr) { 
// 每 个 用 户 计数 为 1， 将 计数 与 年 龄 一 起 发 送 给 目的 顶点 
triplet.sendToDst (1, triplet.srcAttr) 
} 


] 
// 累加 计数 与 年 龄 
(a, b) => (a. 1 + b. 1, a. 2 + b. 2) // Reduce 函 数 


) 
// 每 个 顶点 收 到 的 消息 ， 用 粉丝 总 年 龄 除 以 粉丝 总 数 ， 得 到 粉丝 平均 年 龄 
val avgAgeOfOlderFollowers: VertexRDD[Double] = 
olderFollowers.mapValues( (id, value) => value match { case (count, totalAge) => totalAge / count } ) 
// 显示 计算 结果 
avgAgeOfOlderFollowers.collect.foreach (Println(_)) 








2. 计 算 度 数 





IR] 











一 种 常见 的 聚合 任务 是 计算 每 个 项 点 的 度 ， 即 每 个 项 点 相 邻 的 边 数 。 人 们 常常 需要 知道 每 个 顶点 的 出 度 、 入 度 以 及 度数 。GraphOps 中 包含 了 计算 每 个 顶点 的 度数 的 操作 集合 。 以 计算 
最 大 出 度 、 最 大 入 度 以 及 最 大 度数 为 例 ， 见 代码 清单 10-16。 


中 所 有 项 点 的 














代码 清单 10-16 ”计算 度数 示例 





// 首先 定义 一 个 reduce 函 数 用 于 计算 最 大 度数 
def max(a: (VertexId, Int), b: (VertexId, Int)): (VertexId, Int) = { 
if (a._2>b._2) aelseb 


} 

// 计算 每 种 度数 的 最 大 值 的 顶点 

val maxInDegree: (VertexId, Int) 
val maxOutDegree: (VertexId, Int) 
val maxDegrees: (VertexId, Int) 


graph. inDegrees. reduce (max) 
graph.outDegrees. reduce (max) 
graph.degrees . reduce (max) 





3. 收 集 相 邻 顶点 














在 有 些 情况 下 需要 收集 每 个 顶点 的 相 邻 顶点 以 及 相 邻 顶点 的 属性 ， 可 以 使 用 collectNeigh-borlds 和 collectNeighbors， 见 代码 清单 10-17。 














代码 清单 10-17 ”收集 相 邻 项 点 示例 





class GraphOps[VD, ED] { 
def collectNeighborIds (edgeDirection: EdgeDirection): VertexRDD[Array [VertexId]] 
def collectNeighbors (edgeDirection: EdgeDirection): VertexRDD[ Array [(VertexId, VD)] ] 











由 于 这 些 聚合 操作 都 通过 复制 信息 ， 并 且 需 要 大 量 的 通信 ， 所 以 十 分 消耗 资源 。 尽 可 能 将 这 些 操作 转换 为 使 用 aggregateMessages。 








10.3 Pregel API 












































Graph 由 于 项 点 的 属性 都 依赖 于 相 邻 顶点 的 属性 ， 而 这 些 相 邻 顶点 的 属性 又 依赖 于 它们 的 邻居 的 属性 ， 所 以 Graph 是 一 种 迭代 的 数据 结构 。 结 果 很 多 重要 的 算法 都 迭代 地 重复 计算 每 个 顶点 的 属性 ， 直 
到 到 达 一 个 定点 条 件 为 止 。 图 的 并 行 抽象 已 经 用 来 表达 这 些 和 迭代 算法 。 GraphX 提 供 了 多 种 多 样 的 Pregel AP1， 下 面 展示 Pregel API 的 实现 ， 见 代码 清单 10-18。 






























































代码 清单 10-18 GraphOps 的 apply 方 法 





def apply[VD: ClassTag, ED: ClassTag, A: ClassTag] 

(graph: Graph[VD, ED], 

initialMsg: A, 

maxIterations: Int = Int.MaxValue, 

activeDirection: EdgeDirection = EdgeDirection.Either) 
(vprog: (VertexId, VD, A) => VD, 

sendMsg: EdgeTriplet[VD, ED] => Iterator[(VertexId, A)], 
mergeMsg: (A, A) => A) 
: Graph[VD, ED] = 


var g = graph.mapVertices((vid, vdata) => vprog (vid, vdata, initialMsg) ) .cache() 
// compute the messages 
var messages = g.mapReduceTriplets(sendMsg, mergeMsg) 
var activeMessages = messages.count () 
// Loop 
var prevG: Graph[VD, ED] = null 
var i=0 
while (activeMessages > 0 && i < maxIterations) { 
// Receive the messages. Vertices that didn't get any messages do not appear in newVerts. 
val newVerts = g.vertices.innerJoin (messages) (vprog) .cache () 
// Update the graph with the new vertices. 


prevG = 9 

g = g.outerJoinVertices (newVerts) { (vid, old, newOpt) => newOpt.getOrElse (old) } 
g.cache () 

val oldMessages = messages 

messages = g.mapReduceTriplets(sendMsg, mergeMsg, Some((newVerts, activeDirection) )) .cache () 


activeMessages = messages.count () 
logInfo("Pregel finished iteration " + i) 
// Unpersist the RDDs hidden by newly-materialized RDDs 
oldMessages.unpersist (blocking=false) 
newVerts.unpersist (blocking=false) 
prevG.unpersistVertices (blocking=false) 
prevG.edges.unpersist (blocking=false) 
// count the iteration 
i +=1 

} 


g 
} // end of apply 
} // end of class Pregel 





Pregel 有 两 个 参数 列表 ( 形 如 graph.pregel (list1) (list2) ) 。 第 一 个 参数 列表 包含 的 配置 参数 包括 : 
:initialMsg: 初始 化 消息 ; 
+ maxIterations: 最 大 迭代 次 数 ; 


“ activeDir: 发 送 消息 的 方向 ， 即 沿 着 出 边 的 方向 还 是 入 边 的 方向 。 








第 二 个 参数 列表 包含 用 户 定义 的 函数 ， 例 如 : 








` Vprog: 顶点 处 理 函 数 ; 
-sendMsg: 计算 消息 ; 
-mergeMsg: 合并 消息 。 


本 节 首先 介绍 Dijkstra 算 法 ， 然 后 给 出 Pregel API 如 何 实现 此 算法 。 


10.3.1 Dijkstra 算 法 








Dijkstra 算 法 又 称 为 单 源 最 短路 径 ， 所 谓 单 源 是 在 一 个 有 向 图 中 ， 从 一 个 顶点 出 发 ， 求 该 项 点 至 所 有 可 到 达 顶 点 的 最 短路 径 问 题 。 先 用 来 介绍 Dijkstra 算 法 的 处 理 步骤 [1]: 






























































1) 假设 有 向 图 是 一 个 拥有 6 个 顶点 的 图 ， 边 的 连接 如 图 10-7 所 示 。1 号 顶点 作为 我 们 的 出 发 项 点，5 号 顶点 作为 我 们 的 目的 顶点。 初始 时 ， 除 了 出 发 项 点 的 距离 等 于 0， 其 他 顶点 的 距离 都 设置 为 (无 


O 





14 


are 





图 10-7 有 6 个 顶点 的 有 向 











2) 计算 路 径 1 一 2 的 长 度 ， 如 图 10-8 所 示 。 算 得 1 一 2 的 长 度 是 7， 如 图 10-9 所 示 。 























3) 计算 路 径 1 一 3 的 长 度 ， 如 


3 














10-10 所 示 。 算 得 1 一 3 的 长 ) 





度 是 9， 如 





图 10-11 所 示 。 





图 10-9 ”路 径 1 一 2 的 长 度 是 7 





4) 计算 路 径 1 一 6 的 长 度 ， 如 图 
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10-12 所 示 。 算 得 路 径 1 一 6 的 长 





度 是 14， 如 





图 10-11 














图 10-13 所 示 。 





路 径 1 一 3 的 长 度 是 9 





> 





图 10-13 ”路 径 1 一 6 的 长 度 是 14 





5) 关于 顶点 1 的 计算 已 经 结束 ， 所 以 标记 为 Out， 如 图 10-14 所 示 。 根 据 之 前 的 计算 结果 比较 出 最 小 路 径 应 当 是 路 径 1 一 2。 











6) 计算 路 径 1 一 2 一 3 的 长 度 ， 如 


即 9<10+7， 如 





图 











10-16 所 示 。 


F 





图 














10-15 所 示 。 算 得 路 径 1 一 2 一 3 的 长 





图 10-14 ”标记 顶点 1 为 out 





度 是 10+ 7， 此 时 从 顶点 1 到 顶点 3 有 两 条 路 径 ， 分 别 是 1 一 3 和 1 一 2 一 3。 从 这 两 条 路 径 中 选择 最 短路 径 ， 就 需要 比较 它们 的 距离 ， 

















图 10-16 





7) 上 一 步 算得 顶点 1 到 顶点 3 的 最 短路 径 是 1 一 3， 最 短 长 度 是 9。 计 算 路 径 1 一 2 一 4 的 长 





比较 1 一 3 和 1 一 2 一 3 的 距离 








尽 ， 


如 图 10-17 所 示 。 算 得 路 径 1 一 2 一 4 的 长 度 是 15+7= 22， 如 

















图 











10-18 所 示 。 


























10-18 1 一 2 一 4 的 长 度 是 15+7=22 














8) 关于 顶点 2 的 计算 已 经 结束 ， 所 以 标记 为 Out， 如 图 10-19 所 示 。 由 于 1 一 2 一 4 的 距离 是 22， 计 算 路 径 1 一 3 一 4 的 长 度 ， 需 要 先 计算 路 径 3 一 4 的 长 度 ， 如 图 10-20 所 示 。 



































9) 计算 得 到 路 径 1 一 3 一 4 的 长 度 是 11+ 9= 20， 小 于 


图 10-20 ”计算 路 径 3 一 4 的 长 度 





路 径 1 一 2 一 4 的 长 度 ， 所 以 顶点 1 到 顶点 4 的 最 小 路 径 是 1 一 3 一 4， 如 

















10-21 所 示 。 





图 10-21 ”比较 1 一 3 一 4 和 1 一 2 一 4 的 距离 














10) 计算 路 径 1 一 3 一 6 的 长 度 ， 如 图 10-22 所 示 。 算 得 路 径 1 一 3 一 6 的 长 度 是 9 + 2， 此 时 从 顶点 1 到 顶点 6 有 两 条 路 径 ， 分 别 是 1 一 6 和 1 一 3 一 6。 从 这 两 条 路 径 中 选择 最 短路 径 ， 就 需要 比较 它们 的 距离 ， 
即 14> 9+2， 如 图 10-23 所 示 。 算 得 顶点 1 到 顶点 6 的 最 短路 径 是 1 一 3 一 6， 最 小 长 度 是 11， 如 图 10-24 所 示 。 






























































11) 关于 项 点 3 的 计算 已 经 结束 ， 所 以 标记 为 Out， 如 








10-24 1 一 3 一 6 的 长 度 是 11 














图 10-25 所 示 。 计 算 路 径 1 一 6 一 5 的 长 度 ， 需 要 先 计算 路 径 6 一 5 的 长 度 ， 如 

















10-26 所 示 。 











12) 计算 得 到 路 径 1 一 3 一 6 一 5 的 长 度 是 11+9= 20， 如 


28 所 示 。 








最 终 计 算 的 结果 如 











10-29 所 示 。 
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图 10-26 计算 路 径 6 一 5 的 长 度 




















10-27 所 示 。 关 于 顶点 6 的 计算 已 经 完成 ， 所 以 也 标记 为 Out。 由 于 路 径 1 一 3 一 6 一 5 的 长 度 等 于 路 径 1 一 3 一 4 的 长 度 ， 所 以 不 























Bite, We 

















| | 


图 10-29 ”最 终 计算 的 结果 


10.3.2 ”Dijkstra 的 实现 








我 们 现在 使 用 Pregel APl 来 实现 Dijkstra 算 法 ， 见 代码 清单 10-19。 








代码 清单 10-19 ”Dijkstra 算 法 实现 





20(4)>=20(5) 
That's all 





import org.apache.spark.graphx._ 
// 导入 随机 graph 生 成 库 
import org.apache.spark.graphx.util.GraphGenerators 
// 一 个 边 的 属性 包含 距离 的 graph 
val graph: Graph[Int，Double] = 
GraphGenerators .logNormalGraph (sc, numVertices = 100) .mapEdges(e => e.attr.toDouble) 
val sourceId: VertexId = 42 // 最 终 的 source 
// 初始 化 graph， 除 了 source 的 距离 是 无 限 的 外 ， 其 它 顶 点 都 是 0 
val initialGraph = graph.mapVertices((id, _) => if (id 一 sourceld) 0.0 else Double.PositiveInfinity) 
val sssp = initialGraph.pregel (Double. PositiveInfinity) ( 
(id, dist, newDist) => math.min(dist, newDist), // 计算 顶点 距离 
triplet => { // 发 送 消息 ， 选 择 最 短路 径 
if (triplet.srcAttr + triplet.attr < triplet.dstAttr) { 
Iterator ((triplet.dstId, triplet.srcAttr + triplet.attr) ) 
} else { 
Iterator.empty 








} 
ty f 
(a,b) => math.min(a,b) // 合并 消息 
) 
println (sssp.vertices.collect .mkString("\n") ) 





m 


url=PgYJqT_KnlLaAhrgxuV79cPDM00q8fQhTIM9eVAKUCBAIg7q8nLG1 3ZWUbrK ZY icgg33Ft7 tgnBDmcNjJ141PSZb0tqCTVifmydFbg_pamaN1URcO_dpMOEMaBmVvsGVlhkzctyewWY HOKx4hj92gO008M8wt7kZNrdw: 


10.4 Graph 的 构建 








GraphX 提 供 了 多 种 从 RDD 或 者 磁盘 上 的 顶点 和 边 的 集合 构建 Graph 的 方法 。 默 认 情 况 下 ， 这 些 构建 方式 没有 一 个 对 Graph 的 边 
Graph 重新 分 区 ， 因 为 它 假设 相同 的 边 将 会 位 于 同一 个 分 区 ， 所 以 你 必须 在 调用 groupEdges 之 前 调用 Graph.partitionBy。 









































10.4.1 从 边 的 列表 加 载 Graph 
GraphLoader.edgelListFile 提 供 了 一 种 从 磁盘 上 的 边 的 列表 加 载 Graph 的 方法 ， 见 代码 清单 10-20。 


代码 清单 10-20 GraphLoader 的 edgeListFile 方 法 定义 














新 分 区 ， 所 有 的 边 都 会 在 默认 的 分 区 里 。Graph.groupEdges 需 








object GraphLoader { 
def edgeListFile( 
sc: SparkContext, 
path: String, 
canonicalOrientation: Boolean = false, 


minEdgePartitions: Int = 1) 
: Graph[Int, Int] 


























它 会 解析 下 面 文件 内 容 中 邻接 的 源 顶 点 的 vertexld 和 目的 顶点 的 vertexld， 并 且 忽略 # 号 开头 的 行 。 





his is a comment 




















它 从 指定 的 边 创建 了 一 个 Graph， 并 且 自 动 创建 边 中 提 到 的 顶点 。 所 有 项 点 和 边 的 








小 数量 。 


10.4.2 ”在 Graph 中 创建 图 的 方法 





Graph 中 创建 图 的 方法 见 代码 清单 10-21。 














代码 清单 10-21 Graph 中 创建 图 的 方法 


object Graph { 

def apply[VD, ED] ( 
vertices: RDD[(VertexId, VD)], 
edges: RDD[Edge[ED]], 
defaultVertexAttr: VD = null) 

: Graph[VD, ED] 

def fromEdges[VD, ED] ( 
edges: RDD[Edge[ED]], 
defaultValue: VD): Graph[VD, ED] 

def fromEdgeTuples [VD] ( 
rawEdges: RDD[(VertexId, VertexId)], 
defaultValue: VD, 


uniqueEdges: Option[PartitionStrategy] = None): Graph[VD, Int] 





这 里 对 Graph 中 创建 图 的 方法 简要 介绍 如 下 : 











: Graph.apply 允 许 从 边 和 顶点 的 RDD 集 合 创建 一 个 Graph。 





- Graph.fromEdges 允 许 仅 从 边 的 RDD 集 合 创建 一 个 Graph。 它 会 自动 创建 边 中 提 到 的 顶点 ， 并 且 赋 予 默 认 值 。 





属性 默认 为 1。 参 数 canonicalOrientation 人 允许 在 正 向 重新 调整 边 。 参 数 minEdgePartitions 指 定 生成 的 边 的 分 区 的 最 





- Graph.ftromEdgeTuples 双 许 仅 从 边 的 元 组 创建 一 个 Graph。 它 会 给 边 分 配 默认 值 1， 并 且 自 动 创建 边 中 提 到 的 顶点 ， 并 且 赋 予 默 认 值 。 


10.5 “顶点 集合 抽象 VertexRDD 











VertexRDDIVD] 继 承 自 RDD[ (VertexID，VD) ]， 并 且 添加 了 VertexID 的 唯一 性 约束 。 此 外 ，VertexRDD[VD] 代 表 一 组 顶点 属性 为 VD 的 集合 。VertexRDD[VD] 内 部 实际 将 顶点 属性 都 存 入 一 个 可 以 重 






































Man 





复 使 用 的 hashmap。 如 果 两 个 VertexRDD 都 源 自 相同 的 基础 VertexRDD， 可 以 将 它们 在 固定 的 时 间 之 后 合并 。VertexRDD 中 定义 的 接口 见 代码 清单 10-22。 


代码 清单 10-22 ”VertexRDD 中 定义 的 接口 


class VertexRDD[VD] extends RDD[(VertexID, VD)] { 


def filter(pred: Tuple2[VertexId, VD] => Boolean): VertexRDD[VD] 


def mapValues[VD2] (map: VD => VD2): VertexRDD[VD2] 


def mapValues[VD2] (map: (VertexId, VD) => VD2): VertexRDD[VD2] 


def minus (other: RDD[ (VertexId, VD)]) 
def diff(other: VertexRDD[VD]): VertexRDD[VD] 


def leftJoin[VD2, VD3] (other: RDD[ (VertexId, VD2)]) (f: (VertexId, VD, Option[VD2]) => VD3): VertexRDD[VD3] 
def innerJoin[U, VD2] (other: RDD[(VertexId, U)]) (f: (VertexId, VD, U) => VD2): VertexRDD[VD2] 


def aggregateUsingIndex[VD2] (other: RDD[(VertexId, VD2)], reduceFunc: 


(VD2, VD2) => VD2): VertexRDD[VD2] 














对 这 些 接口 做 些 简要 说 明 : 





- filter: 滤 出 满足 条 件 的 VertexRDD， 并 且 保 留 之 前 的 索引 结构 。 
- mapValues: 对 VertexRDD 进 行 转换 ， 但 保留 之 前 的 索引 结构 。 
- minus: 按照 VertexId 过 滤 出 唯一 的 VertexRDD 的 集合 。 


- diff: 求 VertexRDD 的 顶点 集合 与 其 他 顶点 集合 的 差 集 。 


“ leftjoin: 类 似 于 数据 库 的 左 连接 ， 实 质 上 利用 内 部 索引 加 速 连接 的 连接 操作 。 


“ innerJoin: 类 似 于 数据 库 的 内 连接 ， 实 质 上 利用 内 部 索引 加 速 连接 的 连接 操作 。 


+ ageregateUsingIndex: 使 用 RDD 的 内 部 索引 来 加 速 reduceByKey 操 作 。 




















Spark 官 网 给 出 了 使 用 aggregateUsinglndex 的 例子 ， 见 代码 清单 10-23。setA 是 Vertexld 从 1 到 100 的 顶点 构成 的 VertexRDD; rddB 是 Vertexld 从 1 到 100， 每 个 Vertexld 都 会 有 2 个 对 偶 的 RDD 数 组 ; 
rddB.count 此 时 等 于 200。 使 用 aggregateUsinglndex 将 setA 与 rddB 按 照 Vertexld 进 行 聚 合 后 生成 的 setB 的 大 小 setB.count 等 于 100。 























代码 清单 10-23 aggregateUsinglndex 使 用 示例 


val setA: VertexRDD[Int] = VertexRDD(sc.parallelize (0L until 100L) .map (id => (id, 1))) 
val rddB: RDD[(VertexId, Double)] = sc.parallelize(0L until 100L) .flatMap (id => List((id, 1.0), (id, 2.0))) 


rddB. count 
val setB: VertexRDD[Double] = setA.aggregateUsingIndex (rddB, 
setB.count 

val setC: VertexRDD[Double] 


setA.innerJoin (setB) ( (id, a, b) 


ska 


=> a + b) 





Proxy Error 


The proxy server received an invalid response from an upstream server. 
The proxy server could not handle the request GET /resource/readBook. 


Reason: Error reading from remote server 


10.7 EHI 

















一 些 高 层次 的 理解 有 助 于 我 们 对 可 扩展 性 算法 的 设计 和 API 的 优化 使 用 。 当 一 个 Graph 很 大 或 者 需要 分 布 式 运行 时 ， 需 要 对 Graph 进行 划分 。 常 用 的 划分 方法 有 边 分 割 与 顶点 分 割 ， 如 图 10-30 所 示 。 























Edge Cut Vertex Cut 


图 10-30” 边 分 割 与 顶点 分 割 示意 图 














GraphX 采 用 了 项 点 切 分 的 方法 来 分 布 图 的 划分 ， 而 不 是 使 用 边 的 切 分 。GraphX 按 照 图 中 顶点 的 方式 划分 ， 能 同时 减少 交互 与 存储 的 开销 。 逻 辑 上 ， 将 边 划 分 到 不 同 机 器 ， 并 允许 顶点 跨越 多 台 机 器 。 
边 的 具体 分 割 方法 取决 于 PartitionStrategy。 通 过 使 用 Graph.partitionBy 方 法 ， 用 户 可 以 选择 不 同 的 划分 策略 对 Graph 重新 划分 。 默 认 的 分 区 策略 是 当 Graph 构 造 时 提供 的 边 的 初始 划分 。 用 户 可 以 方便 地 
切换 到 2D 分 区 ， 如 图 10-31 所 示 。 
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410-31 2D 分 区 





PartitionStrategy 中 已 经 定义 了 一 些 分 区 策略 ， 我 们 逐个 来 看 : 





(1) EdgePartition1D 











相同 源 项 点 的 边 会 被 划分 到 一 个 分 





EdgePartition1D 仅 使 用 源 顶 点 的 Vertexld 分 配 边 到 分 区 
码 清单 10-25。 





区 








代码 清单 10-25 ”PartitionStrategy.scala 中 EdgePartition1D 的 实现 


case object EdgePartition1D extends PartitionStrategy { 
override def getPartition(src: VertexId, dst: VertexId, numParts: PartitionID): PartitionID = { 
val mixingPrime: VertexId = 1125899906842597L 


(math.abs (src * mixingPrime) % numParts) .toInt 


其 算法 实现 是 将 源 顶 点 的 Vertexld 乘 以 mixingPrime 这 个 很 大 的 数 ， 然 后 除 以 分 区 数 ， 求 余数 ， 见 代 





x] 





(2) EdgePartition2D 











EdgePartition2D 是 一 种 二 维 分 区 策略 ， 见 代码 清单 10-26。 其 算法 的 步骤 如 下 : 











1) 求 取 小 于 分 区 数 numParts 的 平方 根 的 最 小 整数 ceilSqrtNumpParts; 





2) 计算 列 号 col: 计算 源 顶点 Vertexld 和 mixingPrime 的 乘积 除 以 ceilsqrtNumpParts 的 余数 ; 











3) 计算 行 号 row: 计算 目标 顶点 Vertexld 和 mixingPrime 的 乘积 除 以 ceilsqrtNumParts 的 余数 ; 

















4) 分 区 : 由 表达 式 (col*ceilSqrtNumParts+row) %numpParts 决 定 。 





代码 清单 10-26 ”PartitionStrategy.scala 中 EdgePartition2D 的 实现 





case object EdgePartition2D extends PartitionStrategy { 
override def getPartition(src: VertexId, dst: VertexId, numParts: PartitionID): PartitionID = { 
val ceilSgrtNumParts: PartitionID = math.ceil (math.sqrt (numParts) ) .toInt 
val mixingPrime: VertexId = 1125899906842597L 
val col: PartitionID = (math.abs(src * mixingPrime) % 
val row: PartitionID = (math.abs(dst * mixingPrime) % 
(col * ceilSqrtNumParts + row) % numParts 


eilSgqrtNumParts) .toInt 
eilSgqrtNumParts) .toInt 


Qn 


(3) RandomVertexCut 














RandomVertexCut 通 过 对 源 顶 点 和 目标 顶点 的 Vertexld 求 取 哈 希 值 ， 然 后 除 以 分 区 数 numParts 取 余数 ， 见 代码 清单 10-27。 


代码 清单 10-27 ”PartitionStrategy.scala 中 RandomVertexCut 的 实现 





case object RandomVertexCut extends PartitionStrategy { 
override def getPartition(src: VertexId, dst: VertexId, numParts: PartitionID): PartitionID = { 
math.abs((src, dst) .hashCode()) % numParts 
} 





(4) CanonicalRandomVertexCut 


CanonicalRandomVertexCut 是 RandomVertexCut 的 升级 版 ， 需 要 判断 源 项 点 和 目标 顶点 的 大 小 ， 以 不 同 的 对 偶 顺 序 求 取 哈 希 值 ， 最 后 除 以 分 区 数 numParts 取 余数 ， 见 代码 清单 10-28。 


代码 清单 10-28 ”PartitionStrategy.scala 中 CanonicalRandomVertexCut 的 实现 








case object CanonicalRandomVertexCut extends PartitionStrategy { 
override def getPartition(src: VertexId, dst: VertexId, numParts: PartitionID): PartitionID = { 
if (src < dst) { 


math.abs((src, dst) .hashCode()) % numParts 
} else { 
math.abs((dst, src) .hashCode()) % numParts 


} 





10.8 ”常用 算法 








为 了 简化 分 析 任 务 ，GraphX 包 含 了 Graph 算法 的 集合 。 这 些 算法 主要 都 集成 在 org.apache.spark.graphx.lib 包 中 ， 并 且 可 以 通过 在 Graph 中 隐 式 调用 GraphOps 的 方法 来 直接 访问 。 在 10.3.1 和 10.3.2 

















这 两 节 已 经 详细 介绍 过 Shortest Path (最 短路 径 ) 的 Dijkstra 算 法 ， 本 节 还 将 介绍 其 他 图 算法 。 











10.8.1 网 页 排名 


























是 因 





Google 是 如 今 全 球 最 成 功 的 互联 网 搜索 引擎 ， 但 在 Google 出 现 之 前 ， 也 曾 出 现 过 很 多 通用 或 专业 领域 的 搜索 引擎 。Google 最 终 能 击败 所 有 竞争 对 手 ， 有 一 部 分 原因 





为 它 解 决 了 搜索 引擎 的 最 大 难 


题 : 对 搜索 结果 按 重要 性 排序 。 解 决 这 个 问题 的 算法 就 是 PageRank。PageRank 算 法 计算 每 一 个 网 页 的 PageRank 值 ， 然 后 根据 这 个 值 的 大 小 对 网 页 的 重要 性 进行 排序 。 它 的 思想 是 模拟 一 个 悠闲 的 上 网 
者 ， 上 网 者 首先 随机 选择 一 个 网 页 打开 ， 然 后 在 这 个 网 页 上 待 了 几 分 钟 后 ， 跳 转 到 该 网 页 所 指向 的 链接 ， 这 样 无 所 事 事 、 漫 无 目的 地 在 网 页 上 跳 来 跳 去 ，PageRank 就 是 估计 这 个 悠闲 的 上 网 者 分 布 在 各 个 























网 页 上 的 概率 。 


1.PageRank 算 法 











要 理解 PageRank 算 法 趾 ， 需 要 有 基本 的 高 等 代数 基础 。 为 了 降低 理解 门槛 ， 先 从 简单 的 PageRank 问 题 入 手 。 假 设 当前 网 页 中 共有 A、B、C、D 四 个 网 页 ， 每 个 网 页 都 可 以 作为 一 个 顶点， 如 图 10-32 











所 示 。 如 果 网 页 A 有 链接 可 以 跳 转 到 B， 那 么 存在 一 条 有 向 边 A 一 B。 











10-32 A、B、C、D 四 个 网 页 的 PageRank 











定义 1: 如 果 一 个 顶点 有 k 条 出 边 ， 那 么 跳 转 到 任意 一 个 出 边 的 目的 顶点 的 概率 为 1/k。 








根据 定义 1， 从 图 10-32 可 以 看 出 顶点 A 的 出 度 是 3， 分别 有 3 条 有 向 边 到 达 B、C、D， 所 以 从 顶点 A 跳 转 到 B、C、D 的 概率 都 是 1/3。 同 理 ， 顶 点 B 跳 转 到 A、D 的 概率 都 是 1/2， 顶 点 C 跳 转 到 A 的 概率 是 
1， 顶 点 D 跳 转 到 B、C 的 概率 都 是 1/2。 





定义 2: 如 果 网 页 数目 是 N， 它 们 之 间 的 跳 转 概率 可 以 用 N*N 的 二 维 给 阵 M 表 示 。 其 中 M 自 四 表示 从 第 j 个 顶点 到 第 个 顶点 的 跳 转 概 率 。 


根据 定义 2， 图 10-32 可 以 表示 的 二 维和 矩阵 M 如 下 : 





G If2 1. 0 
13 0 0 1⁄2 
WS 0 0 If 
13 120 0 


定义 3: 如 果 网 页 数目 是 N， 则 跳 转 至 其 中 任 一 网 页 的 概率 是 1/N。 




















根据 定义 3， 则 跳 转 至 图 10-32 中 任 一 网 页 的 概率 是 1/4， 可 以 用 如 下 的 4x 1 的 矩阵 表示 : 











现在 计算 跳 转 到 各 个 页 面 的 概率 ， 用 矩阵 M 乘 以 矩阵 V0 可 以 得 到 新 的 4x 1 矩阵 : 











L U |) 4 
ll3 0 0 EL2 || 1 
13 0 0 12||14 
1/3 0 0 || 14 


r = MY, ae 





得 到 V1 后 ， 接 着 迭代 运算 V2 = MV1、V3 = MV2， 最 终 会 收敛 为 V = [3/9，2/9，2/9，2/9]: 


1/4 1[9/24]/15/481/41/32] [3/9 
1/4 ||5/24]] 11/48 || 7/32 | | 2/9 
1/4 |15/24]| 11/48 || 7/32 | | 2/9 
1/4 ||5/24||11/48|| 7/32 | | 2/9 


(1) 终止 点 问题 
上 述 例子 中 的 项 点 间 都 是 强 连 通 的 ， 即 从 任意 顶点 可 以 到 达 其 他 项 点 。 真 实情 况 下 的 很 多 网 页 是 不 满足 强 连 通 的 ， 当 用 户 访问 一 个 没有 任何 外 链 的 网 页 时 ， 他 可 能 放弃 继续 浏览 ， 也 可 能 重新 输入 一 个 
网 址 访问 。 我 们 将 图 10-32 中 C 到 A 的 有 向 边 去 掉 ， 那 么 整个 图 就 变 为 不 是 强 连 通 的 ， 如 图 10-33 所 示 。 
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(2) 陷阱 问题 

些 情况 下 ， 某 些 网 页 不 存在 指向 
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个 较 小 概率 跳 转 至 其 他 页 面 
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4/15 
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| aad 
等 于 0.2， 则 图 10-34 的 二 维 矩 阵 使 用 公式 计算 得 到 的 结果 如 下 : 
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出 的 总 概率 是 ， 最 终 得 出 如 下 公式 : 
V'=(1-—p \MV teL 
则 图 10-33 的 二 eal 
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按照 最 终 的 这 两 个 公式 持续 迭代 会 发 现 终止 点 问题 和 陷阱 问题 都 不 存在 了 。 


2.PageRank 的 实现 





























要 性 。 假 设 一 条 边 从 u 到 v 代 表 u 认 可 v 的 重要 性 。 例 如 ， 一 个 Twitter 的 用 户 被 很 多 其 他 人 关注 ， 这 个 用 户 的 排 位 将 会 很 高 。 














PageRank 用 来 测量 Graph 中 每 个 顶点 











GraphX 自 带 的 PageRank 中 已 经 实现 了 静态 或 者 动态 PageRank 的 方法 。 静 态 PageRank 方 法 运行 固定 的 迭代 次 数 ， 而 动态 PageRank 将 一 直 运 行 直 到 排名 不 再 变化 。Graph.pageRank 方 法 实际 隐 式 调 
了 GraphOps 的 pageRank 方 法 ， 见 代码 清单 10-29。 




















代码 清单 10-29 GraphOps 的 pageRank 方 法 





def pageRank(tol: Double, resetProb: Double = 0.15): Graph[Double, Double] = { 
PageRank. runUntilConvergence (graph, tol, resetProb) 
} 











GraphOps 的 pageRank 方 法 直接 调用 了 PageRank 的 runUntilConvergence 方 法 ， 见 代码 清单 10-30。 














代码 清单 10-30 PageRank 的 runUntilConvergence 方 法 


def runUntilConvergence[VD: ClassTag, ED: ClassTag] ( 
graph: Graph[VD, ED], tol: Double, resetProb: Double = 0.15): Graph[Double, Double] = 


// 使 用 顶点 和 边 构 造 PageRank 的 Graph， 其 中 每 个 边 都 有 1/ 出 度 的 权重 ， 每 个 顶点 的 属性 都 是 1 
val pagerankGraph: Graph[ (Double, Double), Double] = graph 

// 将 度 与 每 个 顶点 关联 

.outerJoinVertices (graph.outDegrees) { 

(vid, vdata, deg) => deg.getOrElse (0) 


{ 


} 
// 设置 基于 度 的 边 的 权重 
.mapTriplets( e => 1.0 / e.srcAttr ) 
// 设置 顶点 的 属性 等 于 0.0 
.mapVertices( (id, attr) => (0.0, 0.0) ) 
.cache () 
// 下 面 定义 三 个 函数 在 GraphX 中 实现 PageRank 
def vertexProgram(id: VertexId, attr: (Double, Double), msgSum: Double): (Double, Double) = { 
val (oldPR, lastDelta) = attr 
val newPR = oldPR + (1.0 - resetProb) * msgSum 
(newPR, newPR - oldPR) 
} 
def sendMessage (edge: EdgeTriplet[ (Double, Double), Double]) = { 
if (edge.srcAttr. 2 > tol) { 
Iterator ( (edge.dstId, edge.srcAttr. 2 * edge.attr) ) 
} else { 
Iterator.empty 
} 
} 
def messageCombiner (a: Double, b: Double): Double = a + b 
// PageRank 中 所 有 顶点 收 到 的 初始 化 消息 
val initialMessage = resetProb / (1.0 - resetProb) 
// 执行 动态 的 Pregel 版 本 
Pregel (pagerankGraph, initialMessage, activeDirection = EdgeDirection.Out) ( 
vertexProgram, sendMessage, messageCombiner) 
-mapVertices((vid, attr) => attr._1) 









































GraphX 还 提供 了 一 个 运行 PageRank 在 社会 网 络 数据 集 上 的 例子 。 文 件 graphx/data/users.txt 提 供 了 用 户 的 集合 ， 文 件 graphx/data/followers.txt 提 供 了 这 些 用户 间 的 关系 的 集合 ， 我 们 计算 这 些 
户 的 PageRank， 见 代码 清单 10-31。 


























代码 清单 10-31 PageRank 例 子 





// 将 边 加 载 为 graph 
val graph = GraphLoader.edgeListFile(sc, "graphx/data/followers.txt") 
// 允许 PageRank 
val ranks = graph.pageRank (0.0001) .vertices 
// 使 用 用 户 名 连接 排名 
val users = sc.textFile ("graphx/data/users .txt") .map { line => 
val fields = line.split(",") 
(fields (0).toLong, fields (1) ) 


val ranksByUsername = users.join(ranks) .map { 
case (id, (username, rank)) => (username, rank) 


} 
// 打印 结果 
println (ranksByUsername.collect () .mkString("\n") ) 





10.8.2 Connected Components 的 应 用 














论 中 的 Connected Components 是 指 无 向 图 的 子 图 中 ， 任 意 两 个 顶点 之 间 有 边 相 连 ， 并 且 不 会 与 超 图 中 的 任意 顶点 相连 。 图 10-35 展 示 了 一 个 Connected Components 的 例子 。 
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实现 Connected Components 通 常 使 用 广 











1. 广 度 优先 搜索 算法 


问 的 顺序 。 





度 优先 搜索 和 深 














度 优先 搜寻 两 种 算法 。 我 们 以 广 








10-35 Connected Components 示 意图 


度 优先 搜索 算法 为 例 讲解 。 





1) 假设 我 们 有 a、b、d、e、f、g 这 6 个 顶点 组 成 的 Graph， 如 图 10-36 所 示 。 假 设 我 们 记录 顶点 访问 顺序 的 队列 是 queue。 











eo 


i 








直到 所 有 顶点 都 被 访问 过 。 在 访问 过 程 中 需要 队列 记录 顶点 访 




















图 10-36 





2) 我 们 从 a 点 开始 访问 ， 需 要 将 a 放 入 queue， 此 时 queue: a， 如 图 10-37 所 示 。 











6 个 顶点 组 成 的 Graph 





图 10-37 将 a 放 入 queue 


3) 从 queue 中 取出 a，a 有 2 个 相 邻 硕 点 d、g 需 要 访问 。 此 时 queue: 空 。 





4) 我 们 先 访问 g， 需 要 将 g 放 入 queue， 此 时 queue: g， 如 图 10-38 所 示 。 














910-38 将 g 放 入 queue 


5) 我 们 再 访问 d， 需 要 将 d 放 入 queue， 此 时 queue: g、d， 如 图 10-39 所 示 。 








图 10-39 ”将 d 放 入 queue 





6) 由 于 已 经 访问 过 a 的 所 有 相 邻 顶点 ， 现 在 从 queue 中 取出 下 一 元 素 g9，9 有 2 个 相 邻 顶点 b、f 需 要 访问 。 此 时 queue: d, 





7) 我 们 先 访问 f， 需 要 将 f 放 入 queue， 此 时 queue: d、f， 如 图 10-40 所 示 。 














图 10-40 ”将 6 族 入 queue 





8) 我 们 再 访问 b， 需 要 将 b 放 入 queue， 此 时 queue: d、f、b， 如 图 10-41 所 示 。 

















图 10-41 将 b 放 入 queue 


9) 现在 从 queue 中 取出 下 一 元 素 d，d 有 2 个 相 邻 项 点 b、e 需 要 访问 ， 此 时 queue: f, b. 


10) 由 于 b 已 经 访问 过 ， 所 以 只 需要 访问 e， 将 e 放 入 queue， 此 时 queue: f, b, e, 如 














10-42 所 示 。 


图 10-42 ”将 e 放 入 queue 


11) 之 后 陆续 取出 f、b、e， 由 于 这 些 节 点 没有 相 邻 项 点 ， 不 再 有 进入 queue 的 元 素 ， 访 问 结束 。 


2.ConnectedComponents 的 实现 

















GraphX 中 已 经 实现 了 connectedComponents 方 法 ，Graph 实 际 隐 式 调用 了 GraphOps 的 connectedComponents 方 法 ， 


代码 清单 10-32 GraphOps 的 connectedComponents 方 法 


def connectedComponents () : Graph[VertexId, ED] = { 


} 


ConnectedComponents. run (graph) 





见 代码 清单 10-32。 





























connectedComponents 方 法 中 调用 了 ConnectedComponents， 其 实现 见 代 码 清单 10-33。 





代码 清单 10-33 ”ConnectedComponents 的 run 方 法 





def run[VD: ClassTag, ED: ClassTag] (graph: Graph[VD, ED]): Graph[VertexId, ED] = { 


val ccGraph = graph.mapVertices { case (vid, _) => vid } 
def sendMessage (edge: EdgeTriplet [VertexId, ED]) = { 
if (edge.srcAttr < edge.dstAttr) { 
Iterator ((edge.dstId, edge.srcAttr) ) 
} else if (edge.srcAttr > edge.dstAttr) { 
Iterator ((edge.srcId, edge.dstAttr) ) 
} else { 
Iterator.empty 
} 


val initialMessage = Long.MaxValue 

Pregel(ccGraph, initialMessage, activeDirection = EdgeDirection.Either) ( 
vprog = (id, attr, msg) => math.min(attr, msg), 
sendMsg = sendMessage, 
mergeMsg = (a, b) => math.min(a, b)) 


} // end of connectedComponents 






































GraphX 提 供 了 一 个 运行 connectedComponents 在 社会 网 络 数据 集 上 的 例子 。 采 用 的 样 例 数据 还 是 采用 PageRank 例 子 中 用 到 的 ， 见 代码 清单 10-34。 


代码 清单 10-34 connectedComponents 例 子 





// 加 载 PageRank 例 子 需要 的 数据 生成 Graph 

val graph = GraphLoader.edgeListFile(sc, "graphx/data/followers.txt") 
// 查找 connected components 

val cc = graph.connectedComponents () . vertices 

// 使 用 username 连 接 connected components 

val users = sc.textFile ("graphx/data/users .txt") .map { line => 


val fields = line.split(",") 
(fields (0) .toLong, fields (1) ) 


val ccByUsername = users.join(cc).map { 


} 


case (id, (username, cc)) => (username, cc) 


println (ccByUsername.collect () .mkString("\n") ) 





10.8.3 三角 关系 统计 




















相信 很 多 人 都 曾 遇 到 数 一 个 复杂 图 形 中 的 三 角形 个 数 的 问题 ， 三 角 关 系统 计 (TriangleCount) 的 原理 与 之 类 似 ， 也 需要 在 一 个 Graph 中 算出 三 角形 数目 。 此 功能 经 常用 于 社区 ， 对 关注 关系 的 统计 能 
够 有 效 证 明 社区 的 稳定 性 。 社 区 中 的 三 角 关系 出 现 越 多 ， 则 说 明 社 区 越 稳定 。 



































GraphX 中 已 经 实现 了 triangleCount 方 法 ，Graph 实 际 隐 式 调用 了 GraphOps 的 triangleCount 方 法 (Scala 的 特性 ) ， 见 代码 清单 10-35。 








代码 清单 10-35 ”GraphOps 的 triangleCount 方 法 





def triangleCount(): Graph[Int, ED] = { 
TriangleCount . run (graph) 
} 














其 中 调用 了 TriangleCount 的 run 方 法 ， 其 实现 见 代码 清单 10-36。 








代码 清单 10-36 TriangleCount 的 run 方 法 





def run[VD: ClassTag, ED: ClassTag] (graph: Graph[VD,ED]): Graph[Int, ED] = { 
// METRA 
val g = graph.groupEdges((a, b) => a) .cache() 
// 构建 社区 关系 
val nbrSets: VertexRDD[VertexSet] = 
g.collectNeighborIds (EdgeDirection.Either) .mapValues { (vid, nbrs) => 
val set = new VertexSet (4) 
var i=0 
while (i < nbrs.size) { 





// 防止 自 循环 
if(nbrs(i) != vid) { 
set .add (nbrs (i) ) 
f 
i +=1 
} 
set 


} 

// 使 用 Graph 连接 顶点 集合 

val setGraph: Graph[VertexSet, ED] = g.outerJoinVertices(nbrSets) { 
(vid, _, optSet) => optSet.getOrElse (null) 


} 
// 此 函数 用 于 计算 小 顶点 与 大 顶点 之 间 的 交集 
def edgeFunc (ctx: EdgeContext [VertexSet, ED, Int]) { 
assert (ctx.srcAttr != null) 
assert (ctx.dstAttr != null) 
val (smallSet, largeSet) = if (ctx.srcAttr.size < ctx.dstAttr.size) { 
(ctx.srcAttr, ctx.dstAttr) 
} else { 
(ctx.dstAttr, ctx.srcAttr) 
} 
val iter = smallSet.iterator 
var counter: Int = 0 
while (iter.hasNext) { 
val vid = iter.next () 
if (vid != ctx.srcId && vid != ctx.dstId && largeSet.contains(vid)) { 
counter += 1 
} 
} 
ctx.sendToSrc (counter) 
ctx.sendToDst (counter) 


} 
// 计算 边 的 交集 
val counters: VertexRDD[Int] = setGraph.aggregateMessages (edgeFunc, _ + _) 
// 由 于 每 个 三 角形 会 被 计算 两 次 ， 所 以 合并 计数 后 除 以 2 
g.outerJoinVertices (counters) { 
(vid, _, optCounter: Option[Int]) => 

val dblCount = optCounter.getOrElse (0) 

assert ((dblCount & 1) = 0) 

dblcount / 2 





{1] RDA SAA g http://blog.jobbole.com/71431/. 


10.9 ”应 用 举例 


























Spark 自 带 的 例子 LiveJournalPageRank 演 示 了 PageRank。 根 据 其 代码 注释 知道 ， 需 要 去 网 址 : http://snap.stanford.edu/data/soc-LiveJournal1.html 下 载 构建 图 需要 的 数据 集 。 


LiveJournalPageRank 需 要 以 下 参数 : 








“ 数据 集 文件 : 下 载 后 的 文件 soc-LiveJournall.txt.gz 解 压 后 的 文件 路 径 为 D: \soc-Live-Journall.txt; 


+ 输出 文件 : --output=<output_file> 选 项 指定 ; 


x 
区 
We 


žk: 通过 --numEPart=<num_edge_partitions> 选 项 指定 ; 
“ 分 区 策略 : --partStrategy 选 项 指定 ， 可 以 选择 RandomVertexCut、EdgePartition1D、EdgePartition2D 和 CanonicalRandomVertexCut 中 的 任意 一 个 。 
LiveJournalPageRank 的 实现 ， 见 代码 清单 10-37。 


代码 清单 10-37 ” ”LiveJournalPageRank 的 实现 





object LiveJournalPageRank { 
def main(args: Array[String]) { 
if (args.length < 1) { 
System.exit (-1) 
} 
Analytics.main(args.patch(0, List ("pagerank"), 0)) 























其 中 实际 调用 了 Analytics 的 main 函 数 ， 其 中 根据 taskType 分 别 执行 PageRank、Connected Components, Triangle Count 的 例子 。 我 们 只 列 出 其 中 PageRank 相 关 的 代码 ， 见 代码 清单 10-38。 








代码 清单 10-38 ”Analytics.scala 中 与 PageRank 相 关 的 代码 





case "pagerank" => 
val tol = options.remove ("tol") .map (_.toFloat) .getOrElse (0.001F) 
val outFname = options. remove ("output") .getOrElse ("") 


val numIterOpt = options.remove ("numIter") .map (_.toInt) 
options.foreach { 
_) => throw new IllegalArgumentException ("Invalid option: " + opt) 


case (opt, 


} 








) 

val sc = new SparkContext (conf.setAppName ("PageRank(" + fname + ")").setMaster("local[2]")); 
val unpartitionedGraph = GraphLoader.edgeListFile(sc, fname, 

numEdgePartitions = numEPart, 

edgeStorageLevel = edgeStorageLevel, 

vertexStorageLevel = vertexStorageLevel) .cache () 
val graph = partitionStrategy.foldLeft (unpartitionedGraph) (_.partitionBy(_)) 
println ("GRAPHX: Number of vertices " + graph.vertices.count) ~ 
println ("GRAPHX: Number of edges " + graph.edges.count) 
val pr = (numIterOpt match { 

case Some(numIter) => PageRank.run (graph, numIter) 


case None => PageRank. runUntilConvergence (graph, tol) 
}) .vertices.cache () 
println ("GRAPHX: Total rank: " + pr.map( . 2).reduce( + )) 
if (!outFname.isEmpty) { T ~ T 

logWarning ("Saving pageranks of pages to " + outFname) 

pr.map { case (id, r) => id + "\t" + r }.saveAsTextFile (outFname) 


} 
sc.stop() 








10.10 小 结 








GraphX 遵 循 BSP 模式 ， 














读者 对 Pregel API 能 有 更 深层 次 的 理解 。 


第 11 章 “机 器 学 习 


此 拥有 整体 同步 并 行 计算 的 能 力 。GraphX 中 实现 的 图 由 顶点 和 边 的 集合 组 成 。 属 
GraphLoader.edgeListFile 从 磁盘 文件 加 载 和 使 用 Graph 对 象 构造 。 为 适应 分 布 式 
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本 章 导 读 


机 器 学 习 (machine learning, ML) 是 一 门 涉及 概率 论 、 统 计 学 、 通 近 论 、 


重组 已 学 习 的 知识 结构 使 之 不 断 改善 自身 。 


性 图 包含 属性 、 结 构 、 连 接 、 聚 合 等 操作 。 创 建 Graph 包括 两 种 方式 : 使 用 
计算 ，GraphX 还 提供 了 图 分 割 的 能 力 。 通 过 介绍 Dijkstra、PageRank、Connected Components 等 











论 中 的 算法 ， 让 


[ 








《论语 述 而 》 


凸 分 析 、 算 法 复杂 度 理 论 等 多 领域 的 交叉 学 科 。ML 专 注 于 研究 计算 机 模拟 或 实现 人 类 的 学 习 行 为 ， 以 获取 新 知识 、 新 技能 ， 并 


MLlib 是 Spatk 提 供 的 可 扩展 的 机 器 学 习 库 。MLlib 已 经 集成 了 大 量 机 器 学 习 的 算法 ， 由 于 MLlip 涉 及 的 算法 众多 ， 笔 者 只 对 部 分 算法 进行 了 分 析 ， 其 余 算 法 只 是 简单 列 出 公式 ， 读 者 如 果 想 要 对 公式 进行 推 


理 ， 需 要 自己 寻找 有 关 概率 论 、 数 理 统计 、 数 理 分 析 等 方面 的 专门 著作 。 本 章 更 侧重 于 机 器 学 习 API 的 使 用 ， 基 本 能 够 满足 大 多 数 读者 的 需 


11.1 机 器 学 习 概论 上 











机 器 学 习 也 属于 人 工 智能 的 范畴 ， 该 领域 主要 研究 的 对 象 是 人 工 智能 ， 尤 其 是 如 何在 经 验 学 习 中 改善 具体 算法 。 机 器 学 习 是 人 工 智 能 


第 一 阶段 : 20 世 纪 50 年 代 中 叶 至 60: 
第 二 阶段 : 20 世 纪 60 年 代 中 叶 至 70 


第 三 阶段 : 20 世 纪 70 年 代 中 叶 至 80: 

















代 中 叶 ， 属 于 热烈 时 期 。 














代 中 叶 ， 称 为 冷静 时 期 。 

















代 中 叶 ， 称 为 复兴 时 期 。 





第 四 阶段 : 从 1986 年 开始 至 今 。 











(1) 机 器 学 习 的 组 成 





机 器 学 习 的 基本 结构 





根据 知识 库 完成 任务 ， 同 


(2) 学 习 策 略 


由 环境 、 知 识 库 
时 把 获得 的 信息 





究 较为 年 轻 的 分 支 ， 它 的 发 











和 执行 部 分 三 部 分 组 成 。 环 境 向 学 习 部 分 (属于 知识 库 的 一 部 分 ) 提供 某 些 信息 ， 学 习 部 分 利 
反馈 给 学 习 部 分 。 

















学 习 策 略 是 指 机 器 学 习 过 程 中 所 采 
FE (学 习 部 分 ) 使 用 的 推理 越 少 ， 他 对 教师 (环境 ) 的 依赖 就 越 大 ， 教 师 的 负担 也 就 越 寻 














下 6 种 基本 类 型 : 











- 机 械 学 习 (rote learning) : 学 习 者 





展 过 程 大 致 可 分 为 如 下 4 个 阶段 : 


这 些 信息 修改 知识 库 ， 以 增进 执行 部 分 完成 任务 的 效能 ， 执 行 部 分 














的 推理 策略 。 学 习 系 统一 般 由 学 习 和 环境 两 部 分 组 成 。 环 境 (如 书本 或 教师 ) 提供 信息 ， 学 习 部 分 则 实现 信息 转换 、 存 储 ， 并 从 中 获取 有 用 的 信息 。 学 习 过 程 中 ， 











不 需要 任何 推理 或 转换 ， 直 接 获 取 环 境 所 提供 的 信息 。 属 于 此 类 的 如 塞 缪 尔 的 跳棋 程序 。 











和 有。 根据 学 生 实现 信息 转换 所 需 推理 的 多 少 和 难 易 程度 ， 以 从 简单 到 复杂 从 少 到 多 的 次 序 可 以 将 学 习 策 略 分 为 以 


“ 示 教 学 习 (learning from instruction) : 学 习 者 从 环境 获取 信息 ， 把 知识 转换 成 内 部 可 使 用 的 表示 形式 ， 并 将 新 知识 和 原 有 知识 有 机 地 合 为 一 体 。 此 种 学 习 策 略 需要 学 生 有 一 定 程度 的 推理 能 力 ， 但 环 
境 仍 要 做 大 量 的 工作 。 典 型 应 用 是 FOO 程 序 。 


' 演绎 学 习 (learning by deduction) : 学 习 者 通过 推理 获取 有 用 的 知识 。 典 型 应 用 是 宏 操 作 (macro-operation) 学 习 。 





“ 类比 学 习 (learning by analogy) : 学 习 者 根据 两 个 不 同 领域 ( 源 域 、 目 标 域 ) 中 的 知识 相似 性 ， 通 过 类 比 ， 从 源 域 的 知识 推导 出 目标 域 的 相应 知识 。 此 类 应 用 如 卢 瑟 福 类 比 。 


“ 基于 解释 的 学 习 (explanation-based learning, EBL) : 学 习 者 根据 教师 提供 的 目标 概念 和 此 概念 的 例子 、 领 域 理 论 及 可 操作 准则 ， 首 先 给 出 解释 来 说 明 为 什么 该 例子 满足 目标 概念 ， 然 后 将 解释 推广 为 
目标 概念 的 一 个 满足 可 操作 准则 的 充分 条 件 。 著 名 的 EBL 系 统 有 迪 乔 恩 〈G.DejJong) 的 GENESIS 等 。 


:归纳 学 习 (learning from induction) : 


由 环境 提供 某 概念 的 一 些 实例 或 反例 ， 让 学 习 者 通过 归纳 推理 得 出 该 概念 的 一 般 措 述 。 归 纳 学 习 是 最 基本 的 ， 发 展 也 较为 成 熟 的 学 习 方法 ， 在 人 工 智 能 领域 中 已 


得 到 广泛 的 研究 和 应 用 。 


























学 习 策略 还 可 以 从 所 获取 知识 的 表示 形式 、 应 用 领域 等 维度 分 类 ， 有 兴趣 的 读者 可 以 自行 研究 ， 此 处 不 再 歼 述 。 

















(3) 应 用 领域 






































目前 ， 机 器 学 习 已 经 广泛 应 用 于 数据 挖掘 、 计 算 机 视觉 、 自 然 语言 
等 领域 。 














{1] 此 节 部 分 内 容 参 考 自 http://baike.baidu.coryVlink?url=p26UJX578vOjDX6TRh6ROhBX0OPJIdApbOccex87A7By3-xhzvCFzp- 全 8ZWhGu87Qe_v1Ny3iN6RDhlLU3vdK_。 


11.2 Spark MLlib 总 体 设计 






































MLlib (machine learning library) 是 Spark 提 供 的 可 扩展 的 机 器 学 习 库 。M Illib 中 已 经 包含 了 一 些 通 用 的 学 习 算法 和 工具 ,如 : 分 类 、 回 








MLlib 提 供 的 API 主 要 分 为 以 下 两 类 : 
“spark.mllib 包 中 提供 的 主要 API。 


“spatk.ml 包 中 提供 的 构建 机 器 学 习 工 作 流 的 高 层次 的 API。 


11.3 ”数据 类 型 




















MLlib 支 持 存储 在 一 台 机 器 上 的 局 部 向 量 和 矩阵 以 及 由 一 个 或 多 个 RDD 支 持 的 分 布 式 和 矩阵 。 局 部 向 量 和 局 部 矩阵 是 提供 公共 接口 的 简单 数 
供 了 一 组 线性 代数 和 数字 计算 的 库 ， 具 体 信息 访问 http://www.scalanlp.org/。jblas 提 供 了 使 用 Java 开 发 的 线性 代数 库 ， 具 体 信 息 访问 http://jblas.org/。 
































11.3.1 局 部 向 量 





MLlib 支 持 两 种 局 部 向 
格式 为 [1.0，0.0，3.0]， 由 稀疏 向 量 表 示 的 格式 为 (3, [0, 2], [1.0, 3.0]) 。 

















Oza 


FLEA HL EAE EAB. SRT (1.0, 0.0, 3.0) 的 长 度 ， 除 去 0 值 外 ， 其 他 两 个 值 的 索引 和 值 分 别 构成 了 数组 Q，3] 和 数组 [lL.0，3.0]。 





有 关 向 量 的 类 如 图 11-1 所 示 。 

















Vector 


Vectors 


图 11-1 MLlib 49 h$ *ž 


言 处 理 、 生 物 特征 识别 、 搜 索引 擎 、 医 学 诊断 、 检 测 信 用 卡 欺 诈 、 证 券 市 场 分 析 、DNA 序 列 测序 、 语 音 和 手写 识别 、 战 略 游戏 和 机 器 人 


归 、 聚 类 、 协 同 过 滤 、 降 维 以 及 底层 的 优化 原 语 等 算法 和 工 


数据 模型 。Breeze 和 jblas 提 供 了 底层 的 线性 代数 运算 。Breeze 提 


量 类 型 : 密集 向 量 (dense) Abie (sparse) 。 密 集 向 量 由 double 类 型 的 数组 支持 ， 而 稀疏 向 量 则 由 两 个 平行 数组 支持 。 例 如 ， 向 量 (1.0, 0.0, 3.0) 由 密集 向 量 表示 的 


LabeledPoint 






































这 样 。 














Vector 是 所 有 局 间 


向 量 的 基 类 ，Dense-Vector 和 SparseVector 都 是 Vector 的 具体 实现 。Spark 官 方 推荐 使 用 Vectors 中 实现 的 工厂 方法 创建 局 部 向 量 ， 就 像 下 





import org.apache.spark.mllib.linalg.{Vector, Vectors} 

// 创建 密集 向 量 (1.0，0.0，3.0) . 

val dv: Vector = Vectors.dense(1.0, 0.0, 3.0) 

// 给 向 量 (1.0，0.0，3.0) AERE 

val svl: Vector = Vectors.sparse(3, Array(0, 2), Array(1.0, 3.0)) 
// 通过 指定 非 0 的 项 目 ， 创 建 稀 朴 向 量 (1.0, 0.0, 3.0) 

val sv2: Vector = Vectors.sparse(3, Seq((0, 1.0), (2, 3.0))) 





Oze 


Scala 默 认 会 导入 scala.collection.immutable.Vector， 所 以 必须 显 式 导 入 orgapache.spatk.mllib.linalg Vector 才能 使 用 Mllib 提 供 的 Vector。 























本 质 依然 是 使 用 数组 ， 见 代码 清单 11-2。 

















上 面 例子 中 以 数组 为 参数 ， 调 用 Vectors 的 sparse 接 口 ， 见 代码 清单 11-1。 使 用 Seq 创 建 稀疏 向 量 ， 




















代码 清单 11-1 Vectors 的 sparse 接 口 








def sparse(size: Int, indices: Array[Int], values: Array[Double]): Vector = 
new SparseVector (size, indices, values) 





代码 清单 11-2 Vectors 重 载 的 sparse 接 口 





def sparse(size: Int, elements: Seq[(Int, Double)]): Vector = { 
require (size > 0) 
val (indices, values) = elements.sortBy(_._1).unzip 
var prev = -1 


indices.foreach { i => 
require (prev < i, s"Found duplicate indices: $i.") 
prev =i 

} 

require (prev < size) 

new SparseVector (size, indices.toArray, values.toArray) 





113.2 标记 点 






































标记 点 是 将 密集 向 量 或 者 稀 玻 向 量 与 应 答 标签 相关 联 。 在 MLlib 中 ， 标 记 点 用 于 监督 学 习 算法 。MLlib 使 用 double 类 型 存储 标签 ， 所 以 我 们 能 在 回归 和 分 类 中 使 用 标记 点 。 如 果 只 有 两 种 分 类 ， 可 以 使 




















二 分 法 ， 一 个 标签 要 么 是 1.0， 要 么 是 0.0。 如 果 有 很 多 分 类 ， 标 签 应 该 从 零 开始 : 0、1、2..… 




















标记 点 由 样 例 类 LabeledPoint 来 表示 ， 其 使 用 方式 如 下 。 


import org.apache.spark.mllib.linalg.Vectors 

import org.apache.spark.mllib. regression. LabeledPoint 

// 使 用 标签 1.0 和 一 个 密集 向 量 创建 一 个 标记 点 

val pos = LabeledPoint (1.0, Vectors.dense(1.0, 0.0, 3.0)) 

// 使 用 标签 0.0 和 一 个 朴 向 量 创建 一 个 标记 点 

val neg = LabeledPoint (0.0, Vectors.sparse (3, Array(0, 2), Array(1.0, 3.0))) 


























稀 玻 的 训练 数据 做 练习 是 很 常见 的 ， 好 在 MLlib 支 持 读 取 存储 在 LIBSVM 格 式 中 的 训练 例子 。LIBSVM 格 式 是 一 种 每 一 行 表示 一 个 标签 稀 玻 特征 向 量 的 文本 格式 ， 其 格式 如 下 : 











label indexl:valuel index2:value2 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15528/OEBPS/Text/... 














归 的 软件 包 。 具 体 信 息 请 阅读 http://www.csie.ntu.edu.tw/~djlin/libsvm/。MLIib 已 经 提供 了 

















回 























LIBSVM 是 林 智 仁 (Lin Chih-Jen) 教授 等 开发 设计 的 一 个 简单 、 易 用 和 快速 有 效 的 SVM 模式 识别 与 
MLUtilsloadLibSVMFile 方 法 读 取 存 储 在 LIBSVM 格 式 文本 文件 中 的 训练 数据 ， 见 代码 清单 11-3。 





代码 清单 11-3 ” 读 取 LIBSVM 文 件 内 容 





import org.apache.spark.mllib.regression.LabeledPoint 
import org.apache.spark.mllib.util.MLUtils 


import org.apache.spark.rdd.RDD 
val examples: RDD[LabeledPoint] = MLUtils.loadLibSVMFile(sc, “data/mllib/sample_libsvm_data.txt") 





11.3.3 ”局 部 矩阵 


MLIib 支 持 数据 存储 在 单个 double 类 型 数组 的 密 和 矩阵。 先 来 看 这 样 一 个 矩阵 : 








6.0/ 


这 个 矩阵 是 如 何 存储 的 ? 它 只 是 存储 到 一 维 数组 [1.0，3.0，5.0，2.0，4.0，6.0]， 这 个 矩阵 的 尺 斗 是 3*2， 即 3 行 2 列 。 








有 关 局 部 矩阵 的 类 如 图 11-2 所 示 。 


SparseMatrix 





图 11-2 MLlib*P Æ Sp see Aa KH K 





局 部 矩阵 的 基 类 是 Matrix， 目 前 有 一 个 实现 类 DenseMatrix。Spark 官 方 推荐 使 用 Matrices 中 实现 的 工厂 方法 创建 局 部 矩阵 ， 例 如 : 





import org.apache.spark.mllib.linalg. {Matrix, Matrices} 
// Axe 4M ((1.0, 2.0), (3.0, 4.0), (5.0, 6.0)) 
val dm: Matrix = Matrices.dense(3, 2, Array(1.0, 3.0, 5.0, 2.0, 4.0, 6.0)) 





11.3.4 “分 布 式 和 矩阵 








分 布 式 矩阵 分 布 式 地 存储 在 一 个 或 者 多 个 RDD 中 。 如 何 存 储 数据 量 很 大 的 分 布 式 矩 阵 ?最 重要 的 在 于 选择 一 个 正确 的 格式 。 如 果 将 分 布 式 和 矩阵 转换 为 不 同 格式 ， 可 能 需要 全 局 的 shuffle， 成 本 非常 昂 
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BlockMatrix 
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DistributedMatrix 


Row Matrix CoordinateMatrix 


图 11-3 MLlib*p AH A 4B AA KOK 


迄今 为 止 ，MLlib 已 经 实现 了 4 种 类 型 的 分 布 式 和 矩阵 : 
“ RowMatrix: 最 基本 的 分 布 式 矩 阵 类 型 ， 是 面向 行 且 行 索引 无 意义 的 分 布 式 矩 阵 。RowMatrix 的 行 实际 是 多 个 局 部 向 量 的 RDD， 列 受 限 于 integetr 的 范围 大 小 。RowMatrix 适 用 于 列 数 不 大 以 便于 单个 局 部 


向 量 可 以 合理 地 传递 给 Driver， 也 能 在 单个 节点 上 存储 和 操作 的 情况 。 








下 面 展 示 了 可 以 使 用 RDD[Vector] 实 例 来 构建 RowMatrix 的 例子 。 




















import org.apache.spark.mllib.linalg.Vector 

import org.apache.spark.mllib.linalg.distributed.RowMatrix 

val rows: RDD[Vector] = http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/... 
val mat: RowMatrix = new RowMatrix (rows) =. 

val m = mat.numRows () 

val n mat.numCols () 





+ IndexedRowMatrix: 与 RowMatrix 类 似 ， 但 却 面向 索引 的 分 布 式 矩 阵 。IndexedRow-Matrix 常 用 于 识别 行 或 者 用 于 执行 连接 操作 。 可 以 使 用 RDD[IndexedRow] 实 例 创建 IndexedRowMatrix。IndexedRow 的 实 


现 如 下 。 





@Experimental 
case class IndexedRow (index: Long, vector: Vector) 


























通过 删除 IndexedRowMatrix 的 行 索引 ， 可 以 将 IndexedRowMatrix 转 换 为 RowMatrix。 下 面 的 例子 演示 了 如 何 使 用 IndexedRowM atrix。 





import org.apache.spark.mllib.linalg.distributed. {IndexedRow, IndexedRowMatrix, RowMatrix} 

val rows: RDD[IndexedRow] http://www. hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/... 
val mat: IndexedRowMatrix new IndexedRowMatrix (rows) ~ 

val m = mat.numRows () 

val n = mat.numCols() 

val rowMat: RowMatrix = mat.toRowMatrix() 





- CoordinateMatrix: 使 用 坐标 列表 (COO) 格式 存储 的 分 布 式 和 矩阵 。 支 持 Coordinate-Matrix 的 RDD 实 际 是 (i: Long, j: Long, value: Double) 这 样 的 三 元 组 ， ij 是 行 索引 ，j 是 列 索引 ，value 是 实际 存储 的 


4. CoordinateMatrixi& JF] F 4f Fo Fi) AR AR K LAB ERA BAY HL 











可 以 使 用 RDD[MatrixEntry] 实 例 创建 CoordinateMatrix。MatrixEntry 的 实现 如 下 。 








@Experimental 
case class MatrixEntry(i: Long, j: Long, value: Double) 



































通过 调用 CoordinateMatrix 的 tolndexedRowMatrix 方 法 ， 可 以 将 CoordinateMatrix 转 换 为 IndexedRowMatrix。 下 面 的 例子 演示 了 CoordinateMatrix 的 使 用 。 








import org.apache.spark.mllib.linalg.distributed. {CoordinateMatrix, MatrixEntry} 

val entries: RDD[MatrixEntry] = http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/... 
val mat: CoordinateMatrix = new CoordinateMatrix (entries) 

val m = mat.numRows () 

val n = mat.numCols() 

val indexedRowMatrix = mat.toIndexedRowMatrix () 





+ BlockMatrix: ty RDD[MatrixBlock] & #4 44 Ah AFB. MatrixBlock KP ( (Int, Int) , Matrix) 这 样 的 二 元 组 ， (Int, Int) RBlock#9#4], Matrix & i0 R K hhh FHM. BlockMatrix X +45 Hee 


BlockMatrix 的 add 和 multiply， 还 提供 validate 方 法 用 于 校 验 当 前 BlockMatrix 是 否 恰当 构建 。 














通过 调用 IndexedRowMatrix 或 者 CoordinateMatrix 的 toBlockMatrix 方 法 ， 可 以 方便 转换 为 BlockMatrix。toBlockMatrix 方 法 创建 的 Block 的 默认 大 小 是 1024x1024。 可 以 使 
toBlockMatrix (rowsPerBlock, colsPerBlock) 方法 改变 Block 的 大 小 。 下 面 的 例子 演示 了 BlockMatrix 的 使 用 。 









































import org.apache.spark.mllib.linalg.distributed. {BlockMatrix, CoordinateMatrix, MatrixEntry} 

val entries: RDD[MatrixEntry] = http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/... 
val coordMat: CoordinateMatrix = new CoordinateMatrix (entries) = 

val matA: BlockMatrix = coordMat.toBlockMatrix() .cache () 

matA.validate () 

val ata = matA.transpose.multiply (matA) 
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11.4 ”基础 统计 

















MLIib 提 供 了 很 多 统计 方法 ， 包 括 摘要 统计 、 相 关 统 计 、 分 层 抽样 、 假 设 检验 、 随 机 数 生成 等 。 这 些 都 涉及 统计 学 、 概 率 论 的 专业 知识 ， 笔 者 只 会 在 随机 数 生成 中 简单 介绍 其 数学 原理 ， 其 余 内 容 请 读者 
自行 研究 。 


11.4.1 ”摘要 统计 








调用 Statistics 类 的 colstats 方 法 ， 可 以 获得 RDD[Vector] 的 列 的 摘要 统计 。colStats 方 法 返回 了 MultivariateStatisticalSummary 对 象 ，MultivariateStatisticalSummary 对 象 包 含 了 列 的 最 大 值 、 最 小 
值 、 平 均值 、 方 差 、 非 零 元 素 的 数量 以 及 总 数 。 下 面 的 例子 演示 了 如 何 使 用 colStats。 












































import org.apache.spark.mllib.linalg.Vector 

import org.apache.spark.mllib.stat. {MultivariateStatisticalSummary, Statistics} 

val observations: RDD[Vector] = http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/... 
val summary: MultivariateStatisticalSummary = Statistics.colStats (observations) ~ 

println(summary.mean) // 每 个 列 值 组 成 的 密集 向 量 

println(summary.variance) // 列 向 量 方差 

Println (summary.numNonzeros) // 每 个 列 的 非 零 值 个 数 











colStats 实 际 使 用 了 RowMatrix 的 computeColumnSummaryStatistics 方 法 ， 见 代码 清单 11-4。 








代码 清单 11-4 _ Statistics 的 colStats 方 法 





@Experimental 
def colStats(X: RDD[Vector]): MultivariateStatisticalSummary = { 
new RowMatrix (X) .computeColumnSummaryStatistics () 


} 





11.4.2 ”相关 统计 























计算 两 个 序列 之 间 的 相关 性 是 统计 中 通用 的 操作 。MLlib 提 供 了 计算 多 个 序列 之 间 相 关 统 计 的 灵活 性 。 目 前 支持 的 关联 方法 运用 了 皮尔 森 相关 系数 (Pearson correlation coefficient) 和 斯 皮尔 森 秩 相 


关系 数 (Spearman’ s rank correlation coefficient) 。 








1. 皮 尔 森 相关 系数 























皮尔 森 相关 系数 也 称 皮 尔 森 积 矩 相关 系数 (Pearson product-moment correlation coefficient) ， 是 一 种 线性 相关 系数 。 皮 尔 森 相关 系数 是 用 来 反映 两 个 变量 线性 相关 程度 的 统计 量 。 








ii 




















相关 系数 用 ! 表 示 ， 其 中 n 为 样本 量 ，xi，yi，sx，sy 分 别 为 两 个 变量 的 观测 值 和 均值 。r 描 述 的 是 两 个 变量 间 线 性 相关 强 弱 的 程度 。r 的 取 值 在 -1 与 + 1 之 间 ， 若 r > 0， 表 明 两 个 变量 是 正 相关 ， 即 一 个 变量 
的 值 越 大 ， 另 一 个 变量 的 值 也 会 越 大 ; 若 r < 0， 表 明 两 个 变量 是 负 相关 ， 即 一 个 变量 的 值 越 大 另 一 个 变量 的 值 反而 会 越 小 。r 的 绝对 值 越 大 表明 相关 性 越 强 ， 要 注意 的 是 这 里 并 不 存在 因果 关系 。 若 r= 0， 表 
了 明 两 个 变量 间 不 是 线性 相关 ， 但 有 可 能 是 其 他 方式 的 相关 (比如 曲线 方式 ) 。 






























































2. 斯 皮尔 森 秩 相 关系 数 





























斯 皮尔 森 秩 相关 系数 也 称 为 Spearman 的 ， 是 由 Charles Spearman 命 名 的 ， 一 般 用 希腊 字母 p。 (rho) 或 rs 表示 。Spearman 秩 相关 系数 是 一 种 无 参数 (与 分 布 无 关 ) 的 检验 方法 ， 用 于 度量 变量 之 间 联 




















系 的 强 弱 。 在 没有 重复 数据 的 情况 下 ， 如 果 一 个 变量 是 另外 一 个 变量 的 严格 单调 函数 ， 则 Spearman 秩 相关 系数 就 是 + 1 或 -1， 称 变量 完全 Spearman 秩 相关 。 注 意 和 Pearson 完 全 相关 的 区 别 ， 只 有 当 两 变 
量 存 在 线性 关系 时 ，Pearson 相 关系 数 才 为 + 1 或 -1。Spearman 秩 相关 系数 为 : 
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n(n — 


























Statistics 提 供 了 计算 序列 之 间 相 关 性 的 方法 ， 默 认 情况 下 使 用 皮尔 森 相 关系 数 ， 使 用 方法 如 下 。 








import org.apache.spark.SparkContext 


import org.apache.spark.mllib.linalg. 

import org.apache.spark.mllib.stat.Statistics 

val sc: SparkContext = http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/... 

val seriesX: RDD[Double] = http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/... // a series 

val seriesY: RDD[Double] = http://www.hzcourse. com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/ ... // 和 seriesX 必 须 有 相同 的 分 区 数 和 基数 
val correlation: Double = Statistics.corr (seriesX, seriesY, "pearson") 

val data: RDD[Vector] = http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/... // 每 个 向 量 必须 是 行 ， 不 能 是 列 

val correlMatrix: Matrix = Statistics.corr(data, "pearson") 





Statistics 中 相关 性 的 实现 ， 见 代码 清单 11-5。 


代码 清单 11-5 Statistics 中 相关 性 的 实现 


@Experimental 

def corr(X: RDD[Vector]): Matrix = Correlations.corrMatrix (X) 

@Experimental 

def corr(X: RDD[Vector], method: String): Matrix = Correlations.corrMatrix(X, method) 
@Experimental 

def corr(x: RDD[Double], y: RDD[Double]): Double = Correlations.corr(x, y) 

@Experimental 

def corr(x: RDD[Double], y: RDD[Double], method: String): Double = Correlations.corr(x, y, method) 








其 实质 是 代理 了 Correlations，Correlations 中 相关 性 的 实现 见 代 码 清单 11-6。 


代码 清单 11-6 “Correlations 中 相关 性 的 实现 





def corr(x: RDD[Double], 
y: RDD[Double], 
method: String = CorrelationNames.defaultCorrName): Double = { 
val correlation = getCorrelationFromName (method) 
correlation.computeCorrelation(x, y) 


def corrMatrix(X: RDD[Vector], 
method: String = CorrelationNames.defaultCorrName): Matrix = { 
val correlation = getCorrelationFromName (method) 
correlation.computeCorrelationMatrix (X) 


def getCorrelationFromName (method: String): Correlation = { 
try { 
RS .nameToObjectMap (method) 
} catch { 
case nse: NoSuchElementException => 
throw new IllegalArgumentException ("Unrecognized method name. Supported correlations: 
+ CorrelationNames .nameToObjectMap.keys.mkString(", ")) 


} 
} 
private[mllib] object CorrelationNames { 
// Note: after new types of correlations are implemented, please update this map. 
val nameToObjectMap = Map(("pearson", PearsonCorrelation), ("spearman", SpearmanCorrelation) ) 
val defaultCorrName: String = "pearson" 


114.3 ”分 层 抽样 















































分 层 抽 样 (Stratified sampling) 是 先 将 总 体 按 某 种 特征 分 为 若干 次 级 ( 层 ) ， 然 后 再 从 每 一 层 内 进行 独立 取样 ， 组 成 一 个 样本 的 统计 学 计算 方法 。 为 了 对 分 层 抽样 有 更 直观 的 感受 ， 请 看 下 面 的 例 








F: 












































某 市 现 有 机 动车 共 1 万 辆 ， 其 中 大 巴 车 500 辆 ， 小 轿车 6000 辆 ， 中 巴 车 1000 辆 ， 越 野 车 2000 辆 ， 工 程 车 500 辆 。 现 在 要 了 解 这 些 车 辆 的 使 用 年 限 ， 决 定 采 用 分 层 抽样 方式 抽取 100 个 样本 。 按 照 车辆 占 
比 ， 各 类 车 辆 的 抽样 数量 分 别 为 5，60，10，20，5。 


















































摘要 统计 和 相关 统计 都 集成 在 Statistics 中 ， 而 分 层 抽样 只 需要 调用 RDD[ (K, V) ] 的 sampleByKey 和 sampleByKeyExact 即 可 。 为 了 分 层 抽样 ， 其 中 的 键 可 以 被 认为 是 标签 ， 值 是 具体 的 属性 。 
sampleByKey 方 法 采用 找 硬 币 的 方式 来 决定 是 否 将 一 个 观测 值 作为 采样 ， 因 此 需要 一 个 预期 大 小 的 样本 数据 。sampleByKeyExact 则 需要 更 多 更 有 效 的 资源 ， 但 是 样本 数据 的 大 小 是 确定 的 。 
sampleByKeyExact 方 法 允许 用 户 采 样 符合 [YheK， 其 中 fk 是 键 k 的 函数 ，nk 是 RDD[ (K, V) ] 中 键 为 k 的 (K，V) 对 ，K 是 键 的 集合 。 下 例 演示 了 如 何 使 用 分 层 抽样 。 










































































import org.apache.spark.SparkContext 

import org.apache.spark.SparkContext._ 

import org.apache.spark.rdd.PairRDDFunctions 

val sc: SparkContext = http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/... 

val data = http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/... // an RDD[ (K, V)] of any key value pairs 

val fractions: Map[K, Double] = http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/... // specify the exact fraction desire 
val approxSample = data.sampleByKey (withReplacement = false, fractions) E 

val exactSample = data.sampleByKeyExact (withReplacement = false, fractions) 





Ore 


RDD 中 本 身 没 有 实现 sampleByKey 和 sampleByKeyExact， 实 际 是 将 RDD 隐 式 转 换 为 PairRDDFunctions 后 ， 调 用 PairRDDFunctions 的 sampleByKey 和 sampleByKeyExact。 


1144 ”假设 检验 


假设 检验 (hypothesis testing) 是 数理 统计 学 中 根据 一 定 假设 条 件 由 样本 推断 总 体 的 一 种 方法 。 























如 果 对 总 体 的 某 种 假设 是 真实 的 ， 那 么 不 利于 或 不 能 支持 这 一 假设 的 事件 A (小 概率 事件 ) 在 一 次 试验 中 几乎 不 可 能 发 生 ; 要 是 在 一 次 试验 中 A 竟然 发 生 了 ， 就 有 理由 怀疑 该 假设 的 真实 性 ， 拒 绝 这 一 假 
设 。 小 概率 原理 可 以 用 图 11-4 表 示 。 





























Ho 表示 原 假设 ，H1 表 示 备 选 假 设 。 常 见 的 假设 检验 有 如 下 几 种 : 


“ 双边 检验 : Ho: w=, Hy: puo 


“ 右 侧 单 边 检验 : Ho: w<po, Hi: p>ko 


+ 左 侧 单 边 检验 : Ho: >u, Hi: p<ko 








假设 检验 是 一 个 强大 的 工具 ， 无 论 结果 是 否 是 偶然 的 ， 都 可 以 决定 结果 是 否 具有 统计 特征 。MLlib 目 前 支持 皮尔 森 卡 方 测试 (Pearson”s chi-squared test) 。 输 入 数 





接受 








图 11-4 ”小 概率 原理 





























检测 还 是 独立 性 检测 。 卡 方 适合 度 检 测 的 输入 数据 类 型 应 当 是 向 量 ， 而 卡 方 独立 性 检测 需要 的 数据 类 型 是 矩阵 。RDD[LabeledPoint] 可 以 作为 卡 方 检测 的 输入 类 型 。 下 例 演示 了 如 何 使 用 假设 检验 。 

















居 的 类 型 决定 了 是 做 卡 方 适合 





import org.apache.spark.SparkContext 

import org.apache.spark.mllib.linalg. 

import org.apache.spark.mllib.regression.LabeledPoint 
import org.apache.spark.mllib.stat.Statistics. 


val sc: SparkContext = http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/... 
val vec: Vector = http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/... // 事件 的 频率 组 成 的 Vector 


val goodnessOfFitTestResult = Statistics.chiSaTest (vec) 
println (goodnessOfFitTestResult) 


val mat: Matrix = http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/... // 偶然 性 matrix 


val independenceTestResult = Statistics.chiSqTest (mat) 
Println (independenceTestResult) 


val obs: RDD[LabeledPoint] = http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/... // (feature, label) pairs 


val featureTestResults: Array[ChiSqTestResult] = Statistics.chiSqTest (obs) 


vari=1 

featureTestResults.foreach { result => 
println(s"Column $i:\n$result") 
it=1 

} // summary of the test 





11.4.5 ”随机 数 生成 


随机 数 可 以 看 做 随机 变量 ， 什 么 是 随机 变量 ”将 一 枚 质地 均匀 的 硬币 抛掷 3 次 ， 记 录 它 的 结果 ， 有 





Q=f{uuu, uud, udd, udu, ddd, ddu, duu, dud} 











其 中 u 代 表 正 面 朝 上 ，d 代 表 反 面 彰 上 ， 整 个 集合 Q 是 投掷 3 次 硬币 的 样本 空间 。 正 























H] 








朝 上 的 次 数 可 能 是 0，1，2，3。 由 于 样本 空间 O 中 的 结果 都 是 随机 发 生 的 ， 所 以 出 现 正面 的 次 数 X 就 是 随机 的 ， 





为 随机 变量 。 如 果 投 掷 硬币 ， 直 到 出 现 正 面 的 投掷 次 数 为 Y， 那 么 Y 的 取 值 可 能 是 0，1，2，3，…。 如 果 随 机 变量 的 取 值 是 有 限 的 (比如 X) 或 者 是 可 列 的 (比如 Y) ， 那 么 就 称 为 离散 随机 变量 。 





























刚才 说 的 投掷 3 次 硬币 的 情况 下 ， 使 用 P (X= 取 值 ) 的 方式 表达 每 种 取 值 的 概率 ， 我 们 不 难得 出 : 


X 即 


(X= 0) = 


(X= 1)= 




















如 果 样 本 空间 上 随机 变量 的 取 值 用 x1，x2，x3，.… 表 示 ， 那 么 存在 满足 p (x) =P (X=xi) AEP) = ] 的 函数 p。 这 个 函数 p 称 为 随机 变量 X 的 概率 质量 函数 (probability mass function) 或 者 频率 函数 











(frequency function) 。 





如 果 X 取 值 累积 某 个 范围 的 值 ， 那 么 其 累积 分 布 函 数 (cumulative distribution function, cdf) 定义 如 下 : 











F (x) =P (X<x) ， 一 co<x<oco 


累积 分 布 函数 满足 : 


im F(x) =0 flm F(x) = | 


让 一 了 一 DD x00 














同一 样本 空间 上 两 个 离散 随机 变量 X 和 Y 的 可 能 取 值 分 别 为 X1，x2，… 和 y1，y2，…， 如 果 对 所 有 的 j 利 j， 满 足 : 


P(X= x, Y= y) = P(X= x) P(Y= y) 


则 X 和 Y 是 独立 的 。 将 此 定义 推广 到 两 个 以 上 离散 随机 变量 的 情形 ， 如 果 对 所 有 i、j 和 k， 满 足 : 





P(X=%, Y= yj, Z= %) = PX= x)P(Y= y)P(Z= %) 


刚才 所 说 的 X、Y 的 取 值 都 是 离散 的 ， 还 有 一 种 情况 下 取 值 是 连续 的 。 以 人 的 寿命 为 例 ， 可 以 是 任意 的 正 实数 值 。 与 频率 函数 相对 的 是 密度 函数 (density function) f (x) . f (x) 有 这 些 性 质 : 
f (x) >0， 人 分 段 连 续 且 |.‘%-'。 如 果 X 是 具有 密度 函数 f 的 随机 变量 ， 那 么 对 于 任意 的 a < b，X 落 在 区 间 (a, b) 上 的 概率 是 密度 函数 从 a 到 b 的 下 方面 积 : 














b 


Pia<X< b= | Jdr 





随机 数 生成 对 于 随机 算法 、 随 机 协议 和 随机 性 能 测试 都 很 有 
等 生成 随机 RDD。 











。 MLlib 支 持 均匀 分 布 (uniform distribution) 、 标 准 正 态 分 布 (standard normal distribution) 、 泊 松 分 布 (poisson distribution) 





MLIib 有 关 随 机 数 的 类 如 图 11-5 所 示 。 











RandomRDD RandomVectorRDD 





图 11-5 MLlib 有 关 随 机 数 的 类 


以 泊 松 分 布 为 例 ， 先 看 看 它 的 数学 定义 。 参 数 为 (入 > 0) 的 泊 松 频率 函数 (Poisson frequency function) 是 





当 和 = 0.1、1、5、10 时 的 泊 松 分 布 如 


网 











11-6 所 示 。 
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RandomRDDs 提 供 了 工厂 方法 创建 RandomRDD 和 RandomVectorRDD。 下 面 的 例子 中 生成 了 一 个 包含 100 万 个 double 类 型 随机 数 的 RDD[double]， 其 值 符合 标准 正 态 分 布 N (0，1) ， 分 布 于 10 个 
分 区 ， 然 后 将 其 映射 到 N (1, 4). 











import org.apache.spark.SparkContext 

import org.apache.spark.mllib.random.RandomRDDs. 

val sc: SparkContext = http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/... 
val u = normalRDD(sc, 1000000L, 10) 

val v = u.map(x => 1.0 + 2.0 * x) 





11.5 分 类 和 回归 














MLlib 支 持 多 种 多 样 的 分 析 广 法， 例如， 二 元 分 类 (binary classification) 、 多 元 分 类 (multiclass classification) 和 回归 (regression) 。 表 11-1 列 出 了 各 类 问题 的 支持 算法 。 


表 11-1 分 类 和 回归 相关 算法 








问题 类 型 支持 方法 
线性 支持 向 量 机 (linear SVMs), 72 44 [81/4 (logistic regression)， 决 策 树 (decision 
二 元 分 类 trees)， 随 机 森林 (random forests)， 梯 度 提 升 树 ( gradient-boosted trees)， 朴 素 贝 叶 斯 
(naive Bayes ) 
多 元 分 类 逻辑 回归 ， 决 策 树 ， 随 机 森林 ， 朴 素 贝 叶 斯 
回归 线性 最 小 二 乘 (linear least squares)， 套 索 (Lasso)， 岭 回归 (ridge regression), PEA, 


随机 森林 ， 梯 度 提 升 树 ， 保 序 回归 (isotonic regression) 





115.1 数学 公式 








许多 标准 的 机 器 学 习 方法 都 可 以 配制 成 凸 优化 问题 ， 即 找到 一 个 极 小 的 凸 函 数 f 依 赖 于 一 个 d 项 的 可 变 向 量 w。 形 式 上 ， 我 们 可 以 写 为 优化 问题 minweR df (w) ， 其 中 所 述 目标 函数 的 形式 为 : 














这 里 的 向 量 xiE Rd 是 训练 数据 ，1<i<n 并 且 yiE Rd 是 想 要 预测 数据 的 相应 的 标签 。 如 果 L (w; x), yi) 能 表示 为 wTX 和 y 的 函数 ， 我 们 就 说 这 个 方法 是 线性 的 。 几 个 MLIib 的 分 类 和 回归 算法 都 属于 这 一 





类 ， 并 在 这 里 讨论 。 

















目标 函数 f 有 两 个 部 分 : 控制 该 模型 的 复杂 的 正则 化 部 分 和 用 于 在 训练 数据 上 测量 模型 的 误差 的 损失 部 分 。 损 失 函 数 L (w) 是 典型 的 基于 w 的 凸 函数 。 固 定 的 正则 化 参数 和 >0 (regParam 代 码 ) 定义 了 
最 小 损失 〈 即 训练 误差 ) 和 最 小 化 模型 的 复杂 性 〈 即 避免 过 度 拟 合 ) 这 两 个 目标 之 间 的 权衡 。 





(1) 损失 函数 








在 统计 学 ， 统 计 决 策 理论 和 经 济 学 中 ， 损 失 函 数 是 指 一 种 将 一 个 事件 (在 一 个 样本 空间 中 的 一 个 元 素 ) 映射 到 一 个 表达 与 其 事件 相关 的 经 济 成 本 或 机 会 成 本 的 实数 上 的 一 种 函数 。 通 常 而 言 ， 损 失 函 数 




















由 损失 项 (loss term) 和 正则 项 (regularization term) 组 成 。 表 11-2 列 出 了 常用 的 损失 函数 。 


表 11-2 常用 的 损失 函数 


loss function L(w, x, y) gradient 或 sub-gradient 


yx ifywx<1 
hinge loss max {0, 1-yw"x}, ye {-1, + 1} | 3 J 


0 otherwise 
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a ee x 


soti z ol Tamaa ae | 
logistic loss log{1 + exp(-pw'x)). ve {—1, + 1} 1+exp(—yw"x) 


squared loss (w'x-yy 7 了 ER (w'x—y) +x 





这 里 对 表 11-2 中 的 一 些 内 容 做 些 说 明 : 


- Hinge loss: 常用 于 软 间隔 支持 向 量 机 (Soft-margin SVM) 的 损失 函数 ; 


- Logistic loss: 常用 于 逻辑 回归 (logistic regression) 的 损失 函数 ; 
- Squared loss: 常用 于 最 小 二 乘 的 损失 函数 ; 
- Gradient or sub gradient: 梯度 与 次 梯度 。 


(2) 正规 化 





正规 化 的 目的 是 鼓励 简单 的 模型 ， 并 避免 过 度 拟 合 。MLlib 支 持 以 下 正规 化 ， 如 表 11-3 所 示 : 


表 11-3 MLlib 支 持 的 正规 化 


regularizer R(w) gradient 或 sub-gradient 


zero (unregularized) 0 


L2 1 iiw w 


LI pelh sign(w) 




















这 里 的 sign (w) 是 由 向 量 w 中 所 有 项 的 符号 (+1) 组 成 的 向 量 。 平 滑 度 L2 正 规 化 问题 一 般 比 L1 正 规 化 容易 解决 。 然 而 L1 正 规 化 能 帮助 促进 稀疏 权重 ， 导 致 更 小 、 更 可 解释 的 模型 ， 其 中 后 者 于 特征 选 
择 是 有 用 的 。 没 有 任何 正规 化 ， 特 别 是 当 训 练 实例 的 数目 是 小 的 ， 不 建议 训练 模型 。 





























(3) 优化 




















线性 方法 使 用 凸 优化 来 优化 目标 函数 。MLlib 使 用 两 种 方法 : 新 元 和 L-BFGSs 来 描述 优化 部 分 。 目 前 ， 大 多 数 算法 的 API 支 持 随机 梯度 下 降 (SGD) ， 并 有 一 些 支持 L-BFGS。 请 参阅 优化 选择 ， 在 优化 方 
法 中 选择 。 











11.5.2 ”线性 回归 
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线性 回归 (linear regression) 是 一 类 简单 的 指导 学 习 方法 。 线 性 回归 是 预测 定量 响应 变量 的 有 用 工具 。 很 多 统计 学 习 方法 都 是 从 线性 回归 推广 和 扩展 得 到 的 ， 所 以 我 们 有 必要 重点 理解 它 。 























1. 简 单线 性 回归 



























































简单 线性 回归 非常 简单 ， 只 根据 单一 的 预测 变量 X 预 测定 量 响应 变量 Y。 它 假定 X 与 Y 之 间 存 在 线性 关系 。 其 数学 关系 如 下 : 


Y~Bot BIX 
表示 近似 。 这 种 线性 关系 可 以 描述 为 Y 对 X 的 回归 。Bo 和 B1 是 两 个 未 知 的 常量 ， 被 称 为 线性 模型 的 系数 ， 它 们 分 别 表示 线性 模型 中 的 截 距 和 和 斜率 。 


Bo 和 B1 怎 么 得 到 呢 ? 通过 大 量 样 本 数据 估算 出 估计 值 。 假 如 样本 数据 如 下 : 


(X1, V1), (2, BD Xn, Vn 





此 时 间 题 转换 为 在 坐标 中 寻找 一 条 与 所 有 点 的 距离 最 大 程度 接近 的 直线 问题 ， 如 图 11-7[ 所 示 。 
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图 11-7 简单 线性 回归 














使 用 最 小 二 乘 方法 最 终 求 得 的 估计 值 (B'0，B'1) 。 








实际 情况 ， 所 有 的 样本 或 者 真实 数据 不 可 能 真 的 都 在 一 条 直线 上 ， 每 个 坐标 都 会 有 误差 ， 所 以 可 以 表示 为 如 下 关系 : 











Y=B0+BIX+e 


上 式 也 称 为 总 体 回归 直线 (population regression line) ， 是 对 X 和 Y 之 间 真 实 关系 的 最 佳 线性 近似 。 











2. 多 元 线性 回归 



































相 比 简单 线性 回归 ， 实 践 中 常常 不 止 一 个 预测 变量 ， 这 就 要 求 对 简单 线性 回归 进行 扩展 。 虽 然 可 以 给 每 个 预测 变量 单独 建立 一 个 简单 线性 回归 模型 ， 但 无 法 做 出 单一 的 预测 。 更 好 的 方法 是 扩展 简单 线 
性 回归 模型 ， 使 它 可 以 直接 包含 多 个 预测 变量 。 一 般 情 况 下 ， 假 设 有 p 个 不 同 的 预测 变量 ， 多 元 线性 回归 模型 为 : 


F= 40% $B + £4 +e 


其 中 Xj 代表 第 个 预测 变量 ，Bj 代 表 第 个 预测 变量 和 响应 变量 之 间 的 关联 。 












































11.5.3 分 类 

















11.5.2 节 的 线性 回归 模型 中 假设 响应 变量 Y 是 定量 的 ， 但 很 多 时 候 ，Y 却 是 定性 的 。 比 如 杯子 的 材质 是 定性 变量 ， 可 以 是 玻璃 、 塑 料 或 不 锈 钢 等 。 定 性 变量 也 叫 分 类 变量 。 预 测定 性 响应 值 是 指 对 观测 分 
类 。 





分 类 的 目标 是 划分 项 目 分 类 。 最 常见 的 分 类 类 型 是 二 元 分 类 ， 二 元 分 类 有 两 种 分 类 ， 通 常 命名 为 正和 负 。 如 果 有 两 个 以 上 的 分 类 ， 它 被 称 为 多 元 分 类 。MLlib 支 持 两 种 线性 方法 分 类 : 线性 支持 向 量 机 和 
逻辑 回归 。 线 性 支持 向 量 机 仅 支 持 二 元 分 类 ， 而 逻辑 回归 对 二 元 分 类 和 多 元 分 类 都 支持 。 对 于 这 两 种 方法 ，MLlib 支 持 L1 和 L2 正 规 化 变 体 。MLlib 中 使 用 RDD[LabeledPoint] 代 表 训 练 数据 集 ， 其 中 标签 索引 
























































从 0 开始 ， 如 0，1，2，.…。 对 于 二 元 标签 y 在 MLlib 中 使 用 0 表示 负 ， 使 用 + 1 表示 正 。 











1. 线 性 支持 向 量 机 











线性 支持 向 量 机 (SVM) 是 用 于 大 规模 分 类 任务 的 标准 方法 。 正 是 在 介绍 损失 函数 时 提 到 的 : 











L (w; x, y) : 一 max{0，1 一 ywIx} 














默认 情况 下 ， 线 性 支持 向 量 机 使 用 L2 正 规 化 训练 。MLlib 也 支持 选择 L1 正 规 化 ， 在 这 种 情况 下 ， 问 题 就 变 成 了 线性 问题 。 线 性 支持 向 量 机 算法 输出 SVM 模型 。 给 定 一 个 新 的 数据 点 ， 记 为 X， 该 模型 基 了 
wTx 的 值 做 预测 。 默 认 情 况 下 ， 如 果 w x 0 则 结果 是 正 的 ， 否 则 为 负 。 














下 例 展示 了 如 何 加 载 样本 数据 集 ， 执 行 训练 算法 。 





import org.apache.spark.mllib.classification.{SVMModel, SVMWithSGD} 
import org.apache.spark.mllib.evaluation.BinaryClassificationMetrics 
import org.apache.spark.mllib.util.MLUtils 
// 加 载 LIBSVM 格 式 的 训练 数据 
val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_libsvm_data.txt") 
// 将 数据 切 分 为 训练 数据 (60%) 和 测试 数据 (40%) 
val splits = data.randomSplit (Array(0.6, 0.4), seed = 11L) 
val training = splits (0) .cache () 
val test = splits (1) 
// 运行 训练 算法 构建 模型 
val numIterations = 100 
val model = SVMWithSGD.train(training, numIterations) 
// 清除 默认 阔 值 
model.clearThreshold() 
// 在 测试 数据 上 计算 原始 分 数 
val scoreAndLabels = test.map { point => 
val score = model.predict (point. features) 
(score, point.label) 


} 

// 获取 评估 指标 

val metrics = new BinaryClassificationMetrics (scoreAndLabels) 
val auROC = metrics.areaUnderROC () 

println ("Area under ROC = " + auROC) 

// 保存 和 加 载 模型 

model .save (sc, "myModelPath") 

val sameModel = SVMModel.load(sc, "myModelPath") 





SVMWithsGD.train 默 认 执行 L2 正 规 化 ， 可 以 设置 正则 化 参数 为 1.0 来 执行 L1 正 规 化。 配置 及 优化 SVMWithSGD 的 代码 如 下 : 





import org.apache.spark.mllib.optimization.L1Updater 
val svmAlg = new SVMWithSGD() 
svmAlg.optimizer. 
setNumIterations (200) . 
setRegParam(0.1). 
setUpdater (new L1Updater) 
val modelLl = svmAlg.run(training) 
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逻辑 回归 (logistic regression, LR) 被 广泛 用 于 预测 二 元 响应 。 它 正 是 在 介绍 损失 函数 时 提 到 的 : 














L (w; x，y) : =log (1+exp (-yw'x) ) 








对 于 二 元 分 类 问题 ， 该 算法 输出 二 元 逻辑 回归 模型 。 给 定 一 个 新 的 数据 点 ， 记 为 X， 该 模型 基于 应 用 逻辑 函数 
































做 预测 ， 其 中 z = wx。 默 认 情况 下 ， 如 果 f (wx) > 0.5， 输 出 为 正 ， 和 否则 为 负 。 虽 然 不 像 线性 支持 向 量 机 ， 罗 辑 回归 模型 中 ，f (z) 的 原始 输出 具有 一 概率 解释 ( 即 X 是 正 的 概率 ) 。 
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二 元 逻辑 回归 可 以 推广 到 多 元 逻辑 回归 来 训练 和 预测 多 元 分 类 问题 。 对 于 多 元 分 类 问题 ， 该 算法 将 输出 一 个 多 元 逻辑 回归 模型 ， 其 中 包含 K-1 个 二 元 逻辑 回归 模型 。MLlib 实 现 了 两 种 算法 来 解决 逻辑 
归 分 析 : 小 批量 梯度 下 降 和 L-BFGS。Spark 官 方 推荐 L-BFGS， 因 为 它 比 小 批 梯度 下 降 的 收敛 更 快 。 
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下 例 演示 了 如 何 使 用 逻辑 回归 。 











// 运 行 训练 算法 构建 模型 
val model = new LogisticRegressionWithLBFGS () 
.setNumClasses (10) 
„run (training) 
// 在 测试 数据 上 计算 原始 分 数 
val predictionAndLabels = test.map { case LabeledPoint (label, features) => 
val prediction = model.predict (features) 
(prediction, label) 


} 

// 获 取 评 估 指 标 。 

val metrics = new MulticlassMetrics (predictionAndLabels) 

val precision = metrics.precision 

println ("Precision = " + precision) 

// 保 存 和 加 载 模型 

model .save (sc, "myModelPath") 

val samleModel = LogisticRegressionModel.load(sc, "myModelPath") 





11.54 回归 
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1. 线 性 最 小 二 乘 、 套 索 和 上 岭 








线性 最 小 二 乘 公式 是 回归 问题 最 常见 的 公式 。 在 介绍 损失 函数 时 也 提 到 过 它 的 公式 : 


WE 5 (w'x-v)y 


多 种 多 样 的 回归 方法 通过 使 用 不 同 的 正规 化 类 型 ， 都 派生 自 线性 最 小 二 乘 。 例 如 ， 普 通 最 小 二 乘 或 线性 最 小 二 乘 使 用 非 正 规 化 ; 岭 回归 使 用 L2 正 规 化 ; 套 索 使 用 L1 正 规 化 。 对 于 所 有 这 些 模型 的 损失 和 
训练 误差 : 
















































































(w: 





就 是 均 方 误差 。 











下 面 的 例子 演示 了 如 何 使 用 线性 回归 。 








// 加 载 解析 数据 
val data = sc.textFile ("data/mllib/ridge-data/lpsa.data") 
val parsedData = data.map { line => 

val parts = line.split(',') 


LabeledPoint (parts (0) .toDouble, Vectors.dense(parts(1).split(' ') .map(_.toDouble) )) 
}.cache () 
// 构建 模型 


val numIterations = 100 
val model = LinearRegressionWithSGD.train(parsedData, numIterations) 
// 使 用 训练 样本 计算 模型 并 且 计算 训练 误差 
val valuesAndPreds = parsedData.map { point => 
val prediction = model.predict (point. features) 
(point.label, prediction) 
} 
val MSE = valuesAndPreds.map{case(v, p) => math.pow((v - p), 2)}.mean() 
println ("training Mean Squared Error = " + MSE) 
// 保存 与 加 载 模型 
model .save (sc, "myModelPath") 
val sameModel = LinearRegressionModel.load(sc, "myModelPath") 


2. 流 线性 回归 















































流 式 数据 可 以 适用 于 线 上 的 回归 模型 ， 每 当 有 新 数据 到 达 时 ， 更 新 模型 的 参数 。 MLlib 目 前 使 用 普通 最 小 二 乘法 支持 流 线 性 回归 。 除 了 每 批 数据 到 达 时 ， 模 型 更 新 最 新 的 数据 外 ， 实 际 与 线 下 的 执行 是 类 
似 的 。 


下 面 的 例子 ， 假 设 已 经 初始 化 好 了 StreamingContext ssc 来 演示 流 线 性 回归 (streaming linear regression) 。 





val numFeatures = 3 

val model = new StreamingLinearRegressionWithSGD () 

.setInitialWeights (Vectors . zeros (numFeatures) ) 

model .trainOn (trainingData) 

model.predictOnValues (testData.map(lp => (lp.label, 1p.features))) .print () 
ssc.start () 

ssc.awaitTermination () 





[1] AAhttp://baike. baidu.com/link?url=E7 XOLHDT-uWtFaF4 A XArXoFMfc8QT2uwSnF9kKBD8FD8EHqaW9Su6HY bQRpkO KaEZojszY uT40pJZD0cht0240K. 


11.6 决策 树 








因为 它们 很 容易 解释 ， 处 理 分 类 的 功能 ， 延 伸 到 多 元 分 类 设置 ， 不 需要 缩放 功能 ， 并 能 捕捉 到 非 线 性 和 功能 的 交互 。 


























决策 树 是 分 类 和 回归 的 机 器 学 习 任务 中 常用 的 方法 。 决 策 树 广泛 使 








MLlib 使 用 连续 和 分 类 功能 支持 决策 树 的 二 元 和 多 元 的 分 类 和 回归 。 通 过 行 实现 分 区 数据 ， 人 允许 分 布 式 训练 数 以 百 万 计 的 实例 。 

















11.6.1 ”基本 算法 


决策 树 是 一 个 贪心 算法 ， 即 在 特性 空间 上 执行 递归 的 二 元 分 割 。 决 策 树 为 每 个 最 底部 ( 叶 ) 分 


1. 节 点 不 纯度 和 信息 增益 





区 预测 相同 的 标签 。 为 了 在 每 个 树 节点 上 获得 最 大 的 信息 ， 每 个 分 区 是 从 一 组 可 能 的 划分 中 选择 的 最 佳 分 





节点 不 纯度 是 节点 上 标签 的 均匀 性 的 量度 。 当 前 实现 提供 了 两 种 分 类 不 纯度 测量 的 方法 MERA) 和 一 种 回归 不 纯度 测量 的 方法 (方差) ， 如 表 11-4 所 示 。 


表 11-4 不 纯度 测量 方法 
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基尼 不 纯度 (Gini impurity ) 分 类 dr fil L=) 
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万 是 节点 上 标签 i 的 频率 函数 ，C 是 唯一 标 
签 的 数量 


同上 
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方差 (Variance ) 回归 S iy 
N 2 l LY y: Ah 
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信息 增益 是 父 节点 不 纯度 与 两 个 子 节点 不 纯度 的 加 权 总 和 之 间 的 差 。 假 设 将 有 s 个 分 区 ， 大 小 为 N 的 数据 集 D 划 分 为 两 个 数据 集 Dleft 和 Dright， 那 么 信息 增益 为 : 
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IG(D,s) = Impurity( D) — 
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2. 划 分 候选 人 


(1) 连续 特征 


ft 


l rig 
right 


Impurity ( Dien) 一 M] Impurity (D-i) 
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对 于 单机 上 实现 的 小 数据 集 ， 给 每 个 连续 特征 划分 的 候选 人 在 此 特征 上 有 唯一 值 。 有 些 实现 了 对 特征 值 排序 ， 为 了 加 速 计算 ， 使 用 这 些 有 序 的 唯一 值 划分 候选 人 。 对 于 大 的 分 布 式 数据 集 ， 排 序 是 很 昂 





贵 的 。 通 过 在 样本 数据 分 数 上 执行 位 计算 ， 实 现 了 计算 近似 的 划分 候选 人 集合 。 有 序 划 分 创建 了 “ 箱 " ， 可 使 


Ora 





























maxBins 参 数 指定 这 样 的 容器 的 最 大 数量 。 


箱 的 数量 不 能 大 于 实例 的 数目 N (因为 默认 的 maxBins 值 在 军 见 情 况 下 为 32) 。 如 果 条 件 不 满足 ， 生 成 树 算法 自动 降低 垃圾 箱 的 数量 。 


(2) 分 类 特征 


对 于 有 M 种 可 能 值 的 分 类 特征 ， 将 会 有 2M 1-1 个 划分 候选 人 。 对 于 二 元 (0/1) 分 类 和 

















可 归 ， 我 们 可 以 通过 平均 标签 排序 的 分 类 特征 值 ， 减 少 划分 候选 人 至 M-1 的 数量 。 例 如 ， 对 于 一 个 有 A、B 和 (C 三 


个 分 类 的 分 类 特征 的 二 元 分 类 问题 ， 其 相应 的 标签 1 的 比例 是 0.2、0.6 和 0.4 时 ， 分 类 特征 是 有 序 的 A、C、B。 两 个 划分 候选 人 分 别 是 AIC，B 和 A，C|B， 其 中 | 标记 划分 。 








在 多 元 分 类 中 共有 2M1-1 种 可 能 的 划分 ， 无 论 何 时 都 可 能 被 使 用 。 当 2M1-1 比 参数 maxBins 大 时 ， 我 们 使 用 与 二 元 分 类 和 回归 相 类 似 的 方法 。M 种 分 类 特征 用 不 纯度 排序 ， 最 终 得 到 需要 考虑 的 M-1 个 














划分 候选 人 。 
3 .停止 规则 
递归 树 的 构建 当 满足 下 面 三 个 条 件 之 一 时 会 停 在 一 个 节点 。 
:节点 的 深度 与 maxBins 相 等 ; 


“ 没有 划分 候选 人 导致 信息 增益 大 于 minInfoGain; 


:没有 划分 候选 人 产生 的 子 节点 都 至 少 有 minInstancesPerNode 个 训练 实例 。 


11.6.2 ”使 用 例子 











下 面 的 例子 演示 了 使 用 基尼 不 纯度 作为 不 纯度 算法 且 树 深 为 5 的 决策 树 执行 分 类 。 











import org.apache.spark.mllib.tree.DecisionTree 
import org.apache.spark.mllib.tree.model .DecisionTreeModel 
import org.apache.spark.mllib.util.MLUtils 
val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample libsvm data.txt") 
val splits = data.randomSplit (Array(0.7, 0.3)) T = 
val (trainingData, testData) = (splits(0), splits (1)) 
// 训练 决策 树 模型 
空 categoricalFeaturesInfo 说 明 所 有 的 特征 是 连续 的 
val numClasses = 2 
val categoricalFeaturesInfo = Map[Int, Int] () 
val impurity = "gini" 
val maxDepth = 5 
val maxBins = 32 
// trainingData 是 训练 数据 





val model = DecisionTree.trainClassifier(trainingData, numClasses, categoricalFeaturesInfo,impurity, maxDepth, maxBins) 


// 在 测试 实例 上 计算 

val labelAndPreds = testData.map { point => 
val prediction = model.predict (point. features) 
(point.label, prediction) 


} 
val testErr = labelAndPreds.filter(r => r. 1 != r._2).count.toDouble / testData.count () 


println ("Test Error = " + testErr) 

println ("Learned classification tree model:\n" + model.toDebugString) 
model.save(sc, "myModelPath") 

val sameModel = DecisionTreeModel.load(sc, "myModelPath") 














下 面 的 例子 演示 了 使 用 方差 作为 不 纯度 算法 且 树 深 为 5 的 决策 树 执行 分 类 。 





val categoricalFeaturesInfo = Map[Int, Int] () 
val impurity = "variance" 

val maxDepth = 5 

val maxBins = 32 


val model = DecisionTree.trainRegressor (trainingData, categoricalFeaturesInfo, impurity,maxDepth, maxBins) 


val labelsAndPredictions = testData.map { point => 
val prediction = model.predict (point. features) 
(point.label, prediction) 


val testMSE = labelsAndPredictions.map{ case(v, p) => math.pow((v - p), 2)}.mean() 


println ("Test Mean Squared Error = " + testMSE) 

println ("Learned regression tree model:\n" + model.toDebugString) 
model.save(sc, "myModelPath") 

val sameModel = DecisionTreeModel.load(sc, "myModelPath") 





11.7 ”随机 森林 


多 的 树木 减少 偏差 。) 





间 。 





合奏 是 一 个 创建 由 其 他 模型 的 集合 组 合 而 成 的 模型 的 学 习 算法 。M1Llib 支 持 两 个 主要 的 合奏 算法 : 梯 











度 提升 决策 树 (GradientBoostedTrees) 和 随机 森林 (RandomForest) ， 它 们 都 使 用 决策 树 作 为 


























. GBT 每 次 都 要 训练 一 棵 树 ， 所 以 它们 比 随 机 森林 需要 更 长 的 时 间 来 训练 。 随 机 森林 可 以 平行 地 训练 多 棵 树 。 另 一 方面 ，GBT 往 往 比 随机 森林 更 合理 地 使 用 更 小 CR) 的 树 并 且 训练 小 树 会 花费 更 少 的 


“ 随机 森林 更 不 易 发 生 过 度 拟 合 。 随 机 森林 训练 更 多 的 树 会 减少 多 半 的 过 度 拟 合 ， 而 GBT 训 练 更 多 的 树 会 增加 过 度 拟 合 。〔 在 统计 语言 中 ， 随 机 森林 通过 使 用 更 多 的 树木 减少 方差 ， 而 GBT 通 过 使 用 更 


“ 随机 森林 可 以 更 容易 调整 ， 因 为 性 能 与 树木 的 数量 是 单调 增加 的 。 但 如 果 GBT 树 木 的 数量 增长 过 大 ， 性 能 可 能 开始 下 降 。 











总 之 ， 两 种 算法 都 是 有 效 的 ， 具 体 选 择 应 取决 于 特定 的 数据 集 。 


随机 森林 是 分 类 与 回归 中 最 成 功 的 机 器 学 习 模型 之 一 。 为 了 减少 过 度 拟 合 的 风险 ， 随 机 森林 将 很 多 决策 树 结合 起 来 。 和 决策 树 相似 ， 随 机 森林 处 理 分 类 的 功能 ， 延 伸 到 多 元 分 类 设置 ， 不 需要 缩放 功 
能 ， 并 能 捕捉 到 非 线 性 和 功能 的 交互 。 








MLlib 使 用 连续 和 分 类 功能 支持 随机 森林 的 二 元 和 多 元 的 分 类 和 回归 。 














11.7.1 基本 算法 


1 


1 








随机 森林 训练 一 个 决策 树 的 集合 ， 所 以 训练 可 以 并 行 。 该 算法 随机 性 注入 训练 过 程 ， 使 每 个 决策 树 会 有 一 点 不 同 。 结 合 每 棵 树 的 预测 降低 了 预测 的 方差 ， 改 进 了 测试 数据 的 性 能 。 


1. 随 机 注入 

算法 随机 性 注入 训练 的 过 程 包括 : 

1) 每 次 迭代 对 原始 数据 集 进 行 二 次 采样 获得 不 同 的 训练 集 ， 即 引导 。 
2) 考虑 在 树 的 每 个 节点 上 将 特征 的 不 同 随机 子 集 分 割 。 
除了 这 些 随机 性 ， 每 个 决策 树 个 体 都 以 同样 的 方法 训练 。 

2. 预 测 


对 随机 森林 做 预测 ， 就 必须 聚合 它 的 决策 树 集合 的 预测 。 分 类 和 回归 的 聚合 是 不 同 的 : 


: 分 类 采用 多 数 表决 。 每 棵 树 的 预测 作为 对 分 类 的 一 次 投票 ， 收 到 最 多 投票 的 分 类 就 是 预测 结果 。 


“ 回归 采用 平均 值 。 每 棵 树 都 有 一 个 预测 值 ， 这 些 树 的 预测 值 的 平均 值 就 是 预测 结果 。 


.7.2 ”使 用 例子 








下 面 例子 演示 了 使 用 随机 森林 执行 分 类 。 

















// 训练 随机 森林 模型 

// ®categoricalFeaturesInfo 说 明 所 有 特征 是 连续 的 

val numClasses = 2 

val categoricalFeaturesInfo = Map[Int, Int] () 

val numTrees = 3 // Use more in practice. 

val featureSubsetStrategy = "auto" // Let the algorithm choose. 
val impurity = "gini" 

val maxDepth = 4 

val maxBins = 32 


val model = RandomForest.trainClassifier(trainingData, numClasses, categoricalFeaturesInfo, 


numTrees, featureSubsetStrategy, impurity, maxDepth, maxBins) 
val labelAndPreds = testData.map { point => 

val prediction = model.predict (point. features) 

(point.label, prediction) 


val testErr = labelAndPreds.filter(r => r. 1 != r._2).count.toDouble / testData.count () 


println ("Test Error = " + testErr) 

println ("Learned classification forest model:\n" + model.toDebugString) 
model.save(sc, "myModelPath") 

val sameModel = RandomForestModel.load(sc, "myModelPath") 














下 面 例子 演示 了 使 用 随机 森林 执行 回归 。 








val numClasses = 2 

val categoricalFeaturesInfo = Map[Int, Int] () 

val numTrees = 3 // Use more in practice. 

val featureSubsetStrategy = "auto" // Let the algorithm choose. 
val impurity = "variance" 

val maxDepth = 4 

val maxBins = 32 


val model = RandomForest.trainRegressor (trainingData, categoricalFeaturesInfo, 


numTrees, featureSubsetStrategy, impurity, maxDepth, maxBins) 
val labelsAndPredictions = testData.map { point => 

val prediction = model.predict (point. features) 

(point.label, prediction) 


} 

val testMSE = labelsAndPredictions.map{ case(v, p) => math.pow((v - p), 2)}.mean() 
println ("Test Mean Squared Error = " + testMSE) 

println ("Learned regression forest model:\n" + model.toDebugString) 

model.save(sc, "myModelPath") 

val sameModel = RandomForestModel.load(sc, "myModelPath") 





11.8 ”梯度 提升 决策 树 


GBT 迁 代 训练 决策 树 ， 以 便 最 小 化 损失 函数 。 和 决策 树 相 似 ， 随 机 森林 处 理 分 类 的 功能 ， 延 伸 到 多 元 分 类 设置 ， 不 需要 缩放 功能 ， 并 能 捕捉 到 非 线 性 和 功能 的 交互 。 

















MUlib 使 用 连续 和 分 类 功能 支持 梯度 提升 决策 树 的 二 元 和 多 元 的 分 类 和 回归 。 








11.8.1 基本 算法 




















GBT 迁 代 训 练 一 个 决策 树 的 序列 。 在 每 次 迭代 中 ， 算 法 使 用 当前 合奏 来 预测 每 个 训练 实例 的 标签 ， 然 后 将 预测 与 真实 的 标签 进行 比较 。 数 据 集 被 重新 贴 上 标签 ， 将 重点 放 在 预测 不 佳 的 训练 实例 上 。 


























此 ， 在 下 一 迭代 中 ， 决 策 树 将 帮助 纠正 先前 的 错误 。 重 贴标签 的 具体 机 制 是 由 损失 函数 定义 的 。 随 着 每 次 运 代 ，GBT 进 一 步 减少 训练 数据 上 的 损失 函数 。 表 11-5 列 出 了 MLlib 中 GBT 支 持 的 损失 函数 。 请 注 
意 ， 每 个 损失 只 适用 于 分 类 或 回归 之 一 。 其 中 N 表 示 实 例 数量 ，y 表 示 实 例 的 标签 ，x 束 示 实 例 的 特征 ，F (Xj) 表示 实例 i 的 模型 预测 标签 。 
































表 11-5 MLib 中 GBT 支 持 的 损失 函数 


损 K T 3 公 A 描 B 





= 
Log Loss 分 类 2 》 log(1 + exp( - 2y,F(X,))) 二 次 二 项 式 负 对 数 似 然 


也 称 为 L2 损失 。 回 归 任 务 
的 默认 损失 


也 称 为 Ll 损失 。 比 均 方 误 
差 更 稳定 


Squared Error 回归 SY (y: - F(X%))? 





Absolute Error 回归 3 ly, - F(X,) | 











11.8.2 ”使 用 例子 














下 例 演示 了 用 Log Loss 作 为 损失 函数 ， 使 用 GBT 执 行 分 类 的 例子 。 




















// 训练 GradientBoostedTrees 模 型 
// 默认 使 用 LogLoss 
val boostingStrategy = BoostingStrategy.defaultParams ("Classification") 
boostingStrategy.numIterations = 3 // Note: Use more iterations in practice. 
boostingStrategy.treeStrategy.numClasses = 2 
boostingStrategy.treeStrategy.maxDepth = 5 
//” 空 categoricalFeaturesInfo 说 明 所 有 特征 是 连续 的 
boostingStrategy.treeStrategy.categoricalFeaturesInfo = Map[Int, Int] () 
val model = GradientBoostedTrees.train(trainingData, boostingStrategy) 
val labelAndPreds = testData.map { point => 

val prediction = model.predict (point. features) 

(point.label, prediction) 


} 

val testErr = labelAndPreds.filter(r => r. 1 != r. 2).count.toDouble / testData.count () 
println("Test Error = " + testErr) a ~ 

println ("Learned classification GBT model:\n" + model.toDebugString) 

model.save(sc, "myModelPath") 

val sameModel = GradientBoostedTreesModel.load(sc, "myModelPath") 

















下 例 演 示 了 用 Squared Error 作 为 损失 函数 ， 使 用 GBT 执 行 回归 的 例子 。 

















// 训 练 GradientBoostedTrees 模 型 
// ”defaultParams 指 定 了 Regression， 上 默认 使 用 SquaredError 
val boostingStrategy = BoostingStrategy.defaultParams ("Regression") 
boostingStrategy.numIterations = 3 // Note: Use more iterations in practice. 
boostingStrategy.treeStrategy.maxDepth = 5 
//” 空 categoricalFeaturesInfo 说 明 所 有 特征 是 连续 的 
boostingStrategy.treeStrategy.categoricalFeaturesInfo = Map[Int, Int] () 
val model = GradientBoostedTrees.train(trainingData, boostingStrategy) 
val labelsAndPredictions = testData.map { point => 

val prediction = model.predict (point. features) 

(point.label, prediction) 


} 

val testMSE = labelsAndPredictions.map{ case(v, p) => math.pow((v - p), 2)}.mean() 
println ("Test Mean Squared Error = " + testMSE) 

println ("Learned regression GBT model:\n" + model.toDebugString) 

model.save(sc, "myModelPath") 

val sameModel = GradientBoostedTreesModel.load(sc, "myModelPath") 





11.9. 朴素 贝 叶 斯 


119.1 ”算法 原理 


我 们 首先 来 介绍 一 些 数学 中 的 理论 ， 然 后 来 看 朴素 贝 叶 斯 。 











条 件 概率 : A 和 B 表 示 两 个 事件 ， 且 P (B) #0 (B 事 件 发 生 的 概率 不 等 于 0) ， 则 给 定 事件 B 发 生 的 条 件 下 事件 A 发 生 的 条 件 概率 定义 为 : 














P(A N B) 
P(B 


P(AIB) 














使 用 条 件 概率 推导 出 乘法 定律 : A 和 B 表 示 两 个 事件 ， 且 P (B) 40 (B 事 件 发 生 的 概率 不 等 于 0) . ABA: 


P(A MB) = P(AIB)P(B 


将 乘法 定律 扩展 为 全 概率 定律 : 事件 81，B2，.…，Bn 满 足 U!=1B; 二 8，BB 二 9，ji#j， 且 对 所 有 的 i,，P (B) > 0。 那 么 ， 对 于 任意 的 A， 满 足 : 


t=] 


贝 叶 斯 公式 : 事件 A，B1，B2，.….，Bn， 其 中 B; 不 相交 ，U;=18; = 2， 且 对 所 有 的 ij，P (Bi) >0, BBA: 






























































P(AIB.)PCB. 
BY lle 2 


P 
* P(AIB,) P(B;) 


朴素 贝 叶 斯 分 类 算法 是 一 种 基于 每 对 特征 之 间 独 立 性 的 假设 的 简单 的 多 元 分 类 算法 。 朴 素 贝 叶 斯 的 思想 : 对 于 给 出 的 待 分 类 项 ， 求 解 在 此 项 出 现 的 条 件 下 各 个 类 别 出 现 的 概率 ， 哪 个 最 大 ， 就 认为 此 待 
分 类 项 属于 哪个 类 别 。 朴 素 贝 叶 斯 分 类 的 定义 如 下 : 














1) 设 x= {a1，a2，.…，am) 为 待 分 类 项 ， 每 个 a 为 x 的 一 个 特征 属性 ; 


2) 类 别 集合 C={y1，y2，…，ynj; 


3) 计算 P (yix) ，P (yzlx) ，…，P (ynlx) ; 
4) 如 果 P (yk|x) =max{ (yx) ，P (yzlx) ，…，P (ynlx) }, BUY EN, 
关键 在 第 三 步 : 


1) 找到 一 个 已 知 分 类 的 待 分 类 项 集合 ， 这 个 集合 叫做 训练 样本 集 。 





2) 统计 得 到 在 各 类 别 下 各 个 特征 属性 的 条 件 概率 估计 。 即 P (ally1) ，P (aaly1) ，…' P (amly1) ; (allyz) ，P (a2ly2) ，…' P (amly2) ; =; (allyn) ，P (azlyn) ，…' P (amlyn) 。 





3) 如 果 各 个 特征 属性 都 是 独立 的 ， 则 根据 贝 叶 斯 公式 可 以 得 到 以 下 推导 : 





或 一 个 指示 该 条 件 是 否 在 文档 中 找到 (在 伯 努 利 朴素 贝 叶 斯 中 ) 。 


剂 平滑 。 为 文档 分 类 ， 输 入 特征 向 量 通 常 是 稀 琉 的 ， 因 为 稀疏 向 量 能 利用 稀 玻 性 的 优势 。 因 为 训练 数据 只 使 
11.9.2 ”使 用 例子 
下 面 的 例子 演示 了 如 何 使 用 多 项 朴素 贝 叶 斯 。 
import org.apache.spark.mllib.classification. {NaiveBayes, NaiveBayesModel } 
import org.apache.spark.mllib.linalg.Vectors 
import org.apache.spark.mllib.regression.LabeledPoint 
val data = sc.textFile("data/mllib/sample_naive_bayes_data.txt") 
val parsedData = data.map { line => 
val parts = line.split(',') 
LabeledPoint (parts (0) .toDouble, Vectors.dense(parts(1).split(' ') .map(_.toDouble) )) 


P( x| vi)P( Yi) 


PG= 
V)P( y) = P(a| y), P(a2|¥:), 


朴素 贝 叶 斯 能 够 被 非常 有 效 的 训练 。 


























MLlib 支 持 多 项 朴素 贝 叶 斯 和 伯 努 利 朴 素 贝 叶 斯 。 这 些 模型 典型 的 应 用 是 文档 分 类 。 在 这 方面 
特征 值 必须 是 非 负 的 。 模 型 类 型 选择 使 








给 训练 数据 ， 计 算 给 定 标签 特征 的 条 件 概率 分 布 并 给 出 观察 结果 





PIES) 
P( an| yi) = P(x) | [PC aly) 
j=1 














于 预测 。 








， 每 个 观察 是 一 个 文档 ， 每 个 特征 代表 一 个 条 件 ， 其 值 是 条 件 的 频率 (在 多 项 朴素 贝 叶 斯 中 ) 或 一 个 由 零 个 

































































} 

val splits = parsedData.randomSplit (Array(0.6, 0.4), seed = 11L) 

val training = splits (0) 

val test = splits (1) 

val model = NaiveBayes.train(training, lambda = 1.0, modelType = "multinomial") 


val predictionAndLabel = test.map(p => (model.predict (p.features), p.label)) 


可 选 的 参数 “多 项 ”或 “ 伯 努 利 ”。 “多 项 ”作为 默认 模型 。 通 过 设置 参数 (默认 为 1.0) 添加 


一 次 ， 所 以 没有 必要 缓存 它 。 

















val accuracy = 1.0 * predictionAndLabel.filter(x => x. 1 == x. 2) .count () / test.count () 
model.save(sc, "myModelPath") 
val sameModel = NaiveBayesModel.load(sc, "myModelPath") 
11.10 保 序 回归 
11.10.1 ”算法 原理 
保 序 回归 (isotonic regression) 属于 回归 算法 ， 其 定义 为 : 给 定 一 个 有 限 的 实数 集合 Y = {y1，y2，.…，yn} 表 示 观 测 响应 ，X = {x1，x2，…，xn} 表 示 未 知 的 响应 值 ， 进 行 拟 合 找到 一 个 最 小 化 函数 : 
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并 使 
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13. (RFE 


归 有 一 个 可 选 参数 jsotonic， 默 认 值 是 true。 此 参数 指定 保 序 回归 是 保 序 的 (单调 增加 ) 还 








MLlib 支 持 PAVA (pool adjacent violators algorithm) ， 此 算法 使 


是 不 保 序 的 (单调 减少 ) 。 


1 


1 





， 预 测 的 规则 是 : 





保 序 回 归 的 结果 被 视 为 分 段 线性 函数 。 因 此 





1) 如 果 预 测 输入 能 准确 匹配 训练 特征 ， 那 么 返回 相关 预测 。 如 果 有 多 个 预测 








匹配 训练 特征 ， 那 么 会 返回 其 中 之 一 。 


2) 如 果 预 测 输 入 比 所 有 的 训练 特征 低 或 者 高 ， 那 么 最 低 和 最 高 的 训练 特征 各 自 返 回 。 如 果 有 多 个 预测 比 所 有 的 训练 特征 低 或 者 高 ， 那 么 都 会 返回 


3) 如 果 预 测 输入 介 于 两 个 训练 特征 ， 那 么 预测 会 被 视 为 分 段 线性 函数 和 从 最 接近 的 训练 特征 中 计算 得 到 的 插值 。 


.10.2 ”使 用 例子 











保 序 回归 。 





下 面 的 例子 演示 了 如 何 使 





import org.apache.spark.mllib.regression. {IsotonicRegression, IsotonicRegres-sionModel } 
// 省 略 数据 加 载 及 样本 划分 的 代码 
val model = new IsotonicRegression() .setIsotonic (true) .run (training) 
val predictionAndLabel = test.map { point => 
val predictedLabel = model.predict (point. 2) 
(predictedLabel, point. 1) T 


} 
val meanSquaredError = predictionAndLabel.map{case(p, 1) => math.pow((p - 1), 2)}.mean() 


println ("Mean Squared Error = " + meanSquaredError) 
model.save(sc, "myModelPath") 
val sameModel = IsotonicRegressionModel.load(sc, "myModelPath") 


11.11 协同 过 滤 

























































































协同 过 滤 通常 用 于 推荐 系统 。 这 些 技术 旨 在 填补 用 户 关 联 和 矩阵 的 缺失 项 。MLlib 支 持 基于 模型 的 协同 过 滤 ， 用 户 和 产品 由 可 以 预测 缺失 项 的 潜在 因素 的 小 集合 来 描述 。MLIib 采 用 交 蔡 最 小 二 乘 (ALS) 
算法 来 学 习 这 些 潜在 的 因素 。 
和 矩阵 分 解 的 标准 方法 基于 协同 过 滤 处 理 用 户 项 矩阵 的 条 目 是 明确 的 。 现 实 世界 的 用 例 只 能 访问 隐 式 反馈 是 更 常见 的 〈 例 如 浏览 、 点 击 、 购 买 、 喜 欢 、 股 份 等 ) 。 
































下 面 的 例子 演示 了 如 何 使 用 协同 过 滤 。 


import org.apache.spark.mllib.recommendation.ALS 

import org.apache.spark.mllib.recommendation.MatrixFactorizationModel 

import org.apache.spark.mllib.recommendation.Rating 

val data = sc.textFile("data/mllib/als/test.data") 

val ratings = data.map(_.split(',') match { case Array(user, item, rate) => 
Rating(user.toInt, item.toInt, rate.toDouble) 


H 

// 使 用 ALS 构 建 推荐 模型 

val rank = 10 

val numIterations = 20 

val model = ALS.train(ratings, rank, numIterations, 0.01) 

// 模型 计算 

val usersProducts = ratings.map { case Rating(user, product, rate) => 
(user, product) 

} 

val predictions = 
model.predict (usersProducts) .map { case Rating(user, product, rate) => 

((user, product), rate) 


val ratesAndPreds = ratings.map { case Rating(user, product, rate) => 
((user, product), rate) 
} .join (predictions) 


val MSE = ratesAndPreds.map { case ((user, product), (rl, r2)) => 
val err = (rl - r2) 
err * err 

}.mean () 


println ("Mean Squared Error = " + MSE) 
model.save (sc, "myModelPath") 
val sameModel = MatrixFactorizationModel.load(sc, "myModelPath") 





11.12 RŽ 





聚 类 分 析 又 称 群 分 析 ， 它 是 研究 (样品 或 指标 ) 分 类 问题 的 一 种 统计 分 析 方法 。 聚 类 分 析 以 相似 性 为 基础 ， 在 一 个 聚 类 中 的 模式 之 间 比 不 在 同一 聚 类 中 的 模式 之 间 具 有 更 多 的 相似 性 。MLIib 支 持 的 聚 类 
算法 如 下 : 

< K-means; 

“ 高 斯 混合 (Gaussian mixture) ; 

- power iteration clustering (PIC) ; 

- latent Dirichlet allocation (LDA) ; 


+ 流 式 K-means。 


11.12.1 K-means 

















K-means 算 法 是 硬 聚 类 算法 ， 是 典型 的 基于 原型 的 目标 函数 聚 类 方法 的 代表 ， 它 是 数据 点 到 原型 的 某 种 距离 作为 优化 的 目标 函数 ， 利 用 函数 求 极 值 的 方法 得 到 迭代 运算 的 调整 规则 。 














聚 类 属于 无 监督 学 习 ， 以 往 的 回归 、 朴 素 贝 叶 斯 、SVM 等 都 是 有 类 别 标签 y 的 ， 也 就 是 说 ， 样 本 中 已 经 给 出 了 样本 的 分 类 。 而 聚 类 的 样本 中 却 没有 给 定 y， 只 有 特征 x， 比 如 假设 宇宙 中 的 星星 可 以 表示 
成 三 维 空间 中 的 点 集 (x, y, Z) 。 聚 类 的 目的 是 找到 每 个 样本 x 潜 在 的 类 别 y， 并 将 同类 别 y 的 样本 x 放 在 一 起 。 


























在 聚 类 问题 中 ， 训 练 样 本 X = {x1，x2，.…，xm}， 每 个 sR ，K-means 算 法 是 将 样本 聚 类 成 k 个 艇 (cluster) ， 具 体 算法 描述 如 下 : 


1) 随机 选取 k 个 聚 类 质心 点 (cluster centroids) 为 1, p2, ., ER’; 











2) 重复 下 面 过 程 直到 收敛 。 











对 每 一 个 样本 i 计 算 它 应 该 属于 的 类 


ci: 一 argmin |x; — u| 


对 于 每 一 个 类 重新 计算 该 类 的 质心 








Al, 




















1G) =H 





ta =i 





j=l 


k 是 我 们 事先 给 定 的 聚 类 数 ，ci 代 表 样 本 i 与 k 个 类 中 距离 最 近 的 那个 类 ，ci 的 值 是 1 到 Kk 中 的 一 个 。 质 心 uj 代 表 我 们 对 属于 同一 个 类 的 样本 中 心 点 的 猜测 ， 拿 星团 模型 来 解释 就 是 要 将 所 有 的 星星 聚 成 k 个 星 























首先 随机 选取 K 个 宇宙 中 的 点 (或 者 k 个 星星 ) 作为 k 个 星团 的 质心 ， 然 后 第 一 步 对 于 每 一 个 星星 计算 其 到 k 个 质心 中 每 一 个 的 距离 ， 接 着 选取 距离 最 近 的 那个 星团 作为 ci， 这 样 经 过 第 一 步 每 一 个 星星 都 









































有 了 所 属 的 星团 ; 第 二 步 对 于 每 一 个 星团 ， 重 新 计算 它 的 质心 Hj (对 里 面 所 有 的 星星 坐标 求 平均 ) 。 重 复 迭代 第 一 步 和 第 二 步 直到 质心 不 变 或 者 变化 很 小 。 图 11-8 演 示 了 以 上 过 程 [1]。 
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下 面 的 例子 演示 了 K-means 算 法 的 使 用 。 
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图 11-8 ”KK-means 算 法 示例 





import org.apache.spark.mllib.clustering. {KMeans, KMeansModel } 
import org.apache.spark.mllib.linalg.Vectors 
val data = sc.textFile ("data/mllib/kmeans_data.txt") 


val parsedData = data.map(s => Vectors.dense(s.split(' ') .map(_.toDouble) )) .cache () 


val numClusters = 2 

val numIterations = 20 

val clusters = KMeans.train(parsedData, numClusters, numIterations) 
val WSSSE = clusters.computeCost (parsedData) 
println("Within Set Sum of Squared Errors = " 
clusters.save(sc, "myModelPath") 


+ WSSSE) 


val sameModel = KMeansModel.load(sc, "myModelPath") 





1112.2 ”高 斯 混合 


























K-means 的 结果 是 每 个 数据 点 被 分 配 到 其 中 某 一 个 cluster 了 ， 而 高 斯 混合 则 给 出 这 些 数据 点 被 分 配 到 每 个 cluster 的 概率 。 高 斯 混合 的 算法 与 K-means 算 法 类 似 ， 有 兴趣 的 读者 可 以 自行 研究 ， 这 里 只 给 











出 MLlib 中 高 斯 混合 的 使 用 例子 。 
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import org.apache.spark.mllib.clustering.GaussianMixture 
import org.apache.spark.mllib.clustering.GaussianMixtureModel 
import org.apache.spark.mllib.linalg.Vectors 
val data = sc.textFile("data/mllib/gmm_data.txt") 
val parsedData = data.map(s => Vectors.dense(s.trim.split(' ') .map (_.toDouble) ) ) .cache () 
val gm = new GaussianMixture() .setK(2) . run (parsedData) 
gmm.save(sc, "myGMMModel") 
val sameModel = GaussianMixtureModel.load(sc, "myGMMModel") 
for (i <- 0 until gmm.k) { 

println ("weight=%f\nmu=%s\nsigma=\n%s\n" format 

(gmm.weights(i), gmm.gaussians(i).mu, gmm.gaussians (i) .sigma) ) 


123 PREREHERS 














快速 迭代 聚 类 (power iteration clustering, PIC) 是 一 种 简单 可 扩展 的 图 聚 类 方法 。 其 使 用 例子 如 下 : 




















import org.apache.spark.mllib.clustering. {PowerIterationClustering, PowerIteration-ClusteringModel} 
import org.apache.spark.mllib.linalg.Vectors 
val similarities: RDD[ (Long, Long, Double)] = http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/... 
val pic = new PowerIterationClustering() ~ 
.SetK (3) 
.setMaxIterations (20) 
val model = pic.run(similarities) 
model.assignments.foreach { a => 
println(s"${a.id} -> ${a.cluster}") 


model.save(sc, "myModelPath") 
val sameModel = PowerIterationClusteringModel.load(sc, "myModelPath") 





11.12.4 latent Dirichlet allocation 











latent Dirichlet allocation (LDA) 是 一 个 三 层 贝 叶 斯 概率 模型 ， 包 含 词 、 主 题 和 文档 三 层 结构 。 文 档 到 主题 服从 Dirichlet 分 布 ， 主 题 到 词 服从 多 项 式 分 布 。 回 














LDA 是 一 种 非 监督 机 器 学 习 技术 ， 可 以 用 来 识别 大 规模 文档 集 (document collection) 或 语料库 (corpus) 中 潜藏 的 主题 信息 。 它 采用 了 词 袋 (bag of words) 的 方法 ， 这 种 方法 将 每 一 篇 文档 视 为 


























一 个 词 频 向 量 ， 从 而 将 文本 信息 转化 为 了 易于 建 模 的 数字 信息 。 但 是 词 袋 方法 没有 考虑 词 与 词 之 间 的 顺序 ， 这 简化 了 问题 的 复杂 性 ， 同 时 也 为 模型 的 改进 提供 了 契机 。 每 一 篇 文档 代表 了 一 些 主题 所 构成 的 
一 个 概率 分 布 ， 而 每 一 个 主题 又 代表 了 很 多 单词 所 构成 的 一 个 概率 分 布 。 由 于 Dirichlet 分 布 随机 向 量 各 分 量 间 的 弱 相关 性 (之 所 以 还 有 点 “相关 ” ， 是 因为 各 分 量 之 和 必须 为 1) ， 使 得 我 们 假想 的 潜在 主题 
之 间 也 几乎 是 不 相关 的 ， 这 与 很 多 实际 问题 并 不 相符 ， 从 而 造成 了 LDA 的 又 一 个 遗留 问题 。 


























对 于 语料库 中 的 每 篇 文档 ，LDA 定 义 了 如 下 生成 过 程 (generative process) : 








1) 对 每 一 篇 文档 ， 从 主题 分 布 中 抽取 一 个 主题 ; 


2) 从 上 述 被 抽 到 的 主题 所 对 应 的 单词 分 布 中 抽取 一 个 单词 




















3) 重复 上 述 过 程 直至 遍历 文档 中 的 每 一 个 单词 。 




















下 例 演示 了 LDA 的 使 用 。 








import org.apache.spark.mllib.clustering.LDA 
import org.apache.spark.mllib.linalg.Vectors 
val data = sc.textFile ("data/mllib/sample_lda_data.txt") 
val parsedData = data.map(s => Vectors.dense(s.trim.split(' ') .map(_.toDouble))) 
// Index documents with unique IDs | 
val corpus = parsedData.zipWithIndex.map(_.swap) .cache () 
val ldaModel = new LDA() .setK (3) .run (corpus) 
println ("Learned topics (as distributions over vocab of " + ldaModel.vocabSize + " words) :") 
val topics = ldaModel.topicsMatrix 
for (topic <- Range(0, 3)) { 
print ("Topic " + topic + ":") 
for (word <- Range(0, ldaModel.vocabSize)) { print(" " + topics (word, topic)); } 
println() 
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.12.5 流 式 K-means 





























当 数 据 流 到 达 ， 我 们 可 能 想 要 动态 地 估算 cluster， 并 更 新 它们 。 该 算法 采用 了 小 批量 的 K-means 更 新 规则 。 对 每 一 批 数据 ， 将 所 有 的 点 分 配 到 最 近 的 cluster， 并 计算 最 新 的 cluster 中 心 ， 然 后 更 新 每 个 








cluster 的 公式 为 : 


chia + xan 


Ci+i = 


ma 十 Mi 


Wy 41 = Me t Mi 


ct 是 前 一 次 计算 得 到 的 cluster 中 心 ，nt 是 已 经 分 配 到 cluster 的 点 数 ，xt 是 从 当前 批 次 得 到 的 cluster 的 新 中 心 ，mt 是 当前 批 次 加 入 cluster 的 点 数 。 豪 减 因 














都 从 一 开始 就 被 使 用 ; a = 0 时 只 有 最 近 的 数据 将 被 使 用 。 这 类 似 于 一 个 指数 加 权 移 动 平均 值 。 























下 面 的 例子 演示 了 流 式 K-means 的 使 用 。 














子 a 可 被 用 于 忽略 过 去 的 数据 : a = 1 时 所 有 数据 














import org.apache.spark.mllib.linalg.Vectors 
import org.apache.spark.mllib.regression.LabeledPoint 
import org.apache.spark.mllib.clustering.StreamingkKMeans 
val trainingData = ssc.textFileStream("/training/data/dir") .map (Vectors .parse) 
val testData = ssc.textFileStream("/testing/data/dir") .map (LabeledPoint .parse) 
val numDimensions = 
val numClusters = 2 
val model = new StreamingkMeans () 
.SetK (numClusters) 
.setDecayFactor (1.0) 
.setRandomCenters (numDimensions, 0.0) 
model .trainOn (trainingData) 
model .predictOnValues (testData.map(lp => (lp.label, 1lp.features))) .print () 
ssc.start () 
ssc.awaitTermination () 





[由 部 分 内 容 引 用 自 博文 http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006910.html。 


[2] 参考 文档 http://blog.sina.com.cn/s/blog_50d4c97b0100n9ee.html。 


11.13 ERORA 








维 数 减 缩 是 减少 所 考虑 变量 的 数量 的 过 程 。 维 数 减 缩 有 两 种 方式 : 


.奇异 值 分 解 ; 


11.13.1 “奇异 值 分 解 





奇异 值 分 解 (singular value decomposition, SVD) 将 一 个 矩阵 因子 分 解 为 三 个 矩阵 U、 下 0V: 











A=UZVT 
































其 中 U 是 正 交 矩阵， 其 列 被 称 为 左 奇异 向 量 ;2 是 对 角 和 矩阵 ， 其 对 角 线 是 非 负 的 且 以 降序 排列 ， 因 此 被 称 为 奇异 值 ; V 也 是 正 交 矩阵 ， 其 列 被 称 为 右 奇 异 向 量 。 


对 于 大 的 和 矩阵， 除了 项 部 奇异 值 和 它 的 关联 奇异 值 ， 我 们 不 需要 完全 分 解 。 这 样 可 以 节省 存储 、 去 噪声 和 恢复 矩阵 的 低 秩 结构 。 如 果 我 们 保持 前 7 个 顶部 奇异 值 ， 那 么 最 终 的 低 秩 和 矩阵 为 : 


U: mXk 


x: kXk 


V: nXk 





假设 n 小 于 m。 奇 异 值 和 右 奇异 向 量 来 源 于 特征 值 和 Gramian 和 矩阵 AIA 的 特征 向 量 。 矩 阵 存储 左 奇异 向 量 U， 通 过 矩阵 乘法 U A (VS) 计算 。 使 用 的 实际 方法 基于 计算 成 本 自动 被 定义 : 








1) 如 果 (n< 100) 或 者 (k>n/2) ， 我 们 首先 计算 Gramian 和 矩阵 ， 然 后 再 计算 其 顶部 特征 向 量 并 将 特征 向 量 本 地 化 到 Driver。 这 需要 单 次 传递 ， 在 每 个 Executo 和 





花费 Driver 上 O (n2k) 的 时 间 。 








2) 否则 ， 将 使 用 分 布 式 的 方式 计算 ATA 的 值 ， 并 且 发 送 给 ARPACK 计 算 顶 部 特征 向 量 。 这 需要 O (k) 次 传递 ， 每 个 Executor 上 使 


Oza 

















ARPACK 是 一 个 解决 大 规模 特征 问题 的 软件 包 ， 它 实际 是 一 个 Fortran77 子 程序 的 集合 。 











下 面 的 例子 演示 了 SVD 的 使 用 。 























0Driver 上 使 用 O (n2) 的 存储 ,并 











O (n) 的 存储 ， 在 Driver 上 使 








O (nk) 的 存储 。 





import org.apache.spark.mllib.linalg.Matrix 
import org.apache.spark.mllib.linalg.distributed.RowMatrix 
import org.apache.spark.mllib.linalg.SingularValueDecomposition 


val mat: RowMatrix = http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/... 
// 计算 顶部 的 20 个 奇异 值 并 响应 奇异 向 量 

val svd: SingularValueDecomposition[RowMatrix, Matrix] = mat.computeSVD(20, computeU = true) 

val U: RowMatrix = svd.U // The U factor is a RowMatrix. 

val s: Vector = svd.s // The singular values are stored in a local dense vector. 

val V: Matrix = svd.V // The V factor is a local dense matrix. 





11.13.2 ” 主 成 分 分 析 











主 成 分 分 析 (Principal compoment analysis, PCA) 是 一 种 统计 方法 ， 此 方法 找到 一 个 旋转 ， 使 得 第 一 坐标 具有 可 能 的 最 大 方差 ， 并 且 每 个 随后 的 坐标 都 具有 可 能 的 最 大 方差 。 旋 转 和 矩阵 的 列 被 称 为 
主 成 分 。 下 面 的 例子 演示 了 使 用 RowMatrix 计 算 主 成 分 。 














import org.apache.spark.mllib.linalg.Matrix 

import org.apache.spark.mllib.linalg.distributed.RowMatrix 

val mat: RowMatrix = http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/... 
// 计算 顶部 的 10 个 主 成 分 

val pc: Matrix = mat.computePrincipalComponents (10) // 主 成 分 存储 在 密 和 矩阵 中 

val projected: RowMatrix = mat.multiply (pc) 














下 面 的 例子 演示 了 PCA 的 使 用 。 














import org.apache.spark.mllib.regression.LabeledPoint 

import org.apache.spark.mllib.feature.PCA 

val data: RDD[LabeledPoint] = http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15528/OEBPS/Text/... 
// 计算 顶部 的 10 个 主 成 分 

val pca = new PCA(10) .fit (data.map (_ .features) ) 

val projected = data.map(p => p.copy(features = pca.transform(p.features))) 





11.14 ”特征 提取 与 转型 


11.14.1 术语 频率 反 转 























术语 频率 反 转 (term frequency-inverse document frequency, TF-IDF) 是 一 个 反映 文集 的 文档 中 的 术语 的 重要 性 ， 广 泛 应 用 于 文本 挖掘 的 特征 矢量 化 方法 。 术 语 表示 为 t， 文 档 表示 为 d， 文 集 表示 
为 D。 术 语 频率 TF (t, d) 表示 术语 t 在 文档 d 中 出 现 的 频率 ,文档 频率 DF (t, D) 表示 包含 术语 t 的 文档 数量 。 如 果 我 们 仅 使 用 术语 频率 来 测量 重要 性 ， 则 很 容易 过 度 强调 术语 出 现 的 很 频繁 ， 而 携带 的 关 
于 文档 的 信息 很 少 ， 例 如 a、the 和 of 等 。 如 果 术 语 非常 频繁 地 跨 文 集 出 现 ， 这 意味 着 它 并 没有 携带 文档 的 特定 信息 。 反 转 文档 频率 是 一 个 术语 提供 了 多 少 信息 的 数值 度量 : 


| +] 
IDF(t,D) = log a + + | 


|D| 表 示 文 集中 的 文档 总 数 。 因 为 使 用 了 对 数 ， 如 果 一 个 术语 出 现 于 所 有 的 文档 中 ， 它 的 IDF 值 变 为 0。 需 要 注意 的 是 ， 应 用 一 个 平滑 项 ， 以 避免 被 零 除 。TF-IDF 方 法 基于 TF 与 IDF， 它 的 公式 如 下 : 


TFIDF(i,d,D) = TF(i,d) + IDF(t,D) 


这 里 有 一 些 术 语 频率 和 文档 频率 定义 的 变种 。 在 MLlib 中 ， 为 了 使 TF 和 IDF 更 灵活 ， 将 它们 分 开 了 。MLIib 实 现 术语 频率 时 使 用 了 哈 希 。 应 用 哈 希 函 数 将 原始 特征 映射 到 了 索引 (术语 ) ， 术 语 频 率 因此 
依赖 于 map 的 索引 来 计算 。 这 种 方法 避免 了 需要 计算 一 个 全 局 术语 到 索引 图 ， 这 对 于 大 型 语料库 开销 会 很 大 。 但 由 于 不 同 的 原始 特征 在 哈 希 后 可 能 变 为 同样 的 术语 ， 所 以 存在 潜在 的 哈 希 冲突 。 为 了 降低 碰 


撞 的 机 会 ， 我 们 可 以 增加 目标 特征 的 维度 〈( 即 哈 希 表 中 的 桶 数 ) 。 默 认 的 特征 维度 是 220 = 1048576, 









































































































































注意 














MLlib 还 没有 给 文本 片段 提供 工具 ， 读 者 可 以 参考 http://nlp.stanford.edu/ 和 https://github.com/scalanlp/chalk。 























下 面 的 例子 演示 了 HashingTF 的 使 用 。 





import org.apache.spark.rdd.RDD 

import org.apache.spark.SparkContext 

import org.apache.spark.mllib. feature.HashingTF 

import org.apache.spark.mllib.linalg.Vector 

val sc: SparkContext = http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/... 

val documents: RDD[Seq[String]] = sc.textFile ("http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/...").map(_.split(" ") .tc 
val hashingIF = new HashingTF() a T 

val tf: RDD[Vector] = hashingTF.transform (documents) 














下 面 的 例子 演示 了 IDF 的 使 用 。 











import org.apache.spark.mllib.feature.IDF 

//_http://www.hzcourse .com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/0EBPS/Text/... 跟着 前 面 的 例子 继续 
tf.cache () 

val idf = new IDF().fit(tf) 

val tfidf: RDD[Vector] = idf.transform(tf) 

val idf2 = new IDF(minDocFreq = 2) .fit (tf) 

val tfidf2: RDD[Vector] = idf2.transform(tf) 





11.14.2 ”单词 向 量 转换 

















Word2Vec 计 算 由 单词 表示 的 分 布 式 向 量 。 分 布 式 表征 的 主要 优点 是 ， 类 似 的 单词 在 矢量 空间 是 接近 的 ， 这 使 得 泛 化 小 说 模式 更 容易 和 模型 估计 更 稳健 。 分 布 式 向 量 表示 被 证 实在 许多 自然 语言 处 理应 














中 有 用 ， 例 如 ， 命 名 实体 识别 、 消 歧 、 解 析 、 标 记 和 机 器 翻译 。 



































MLlib 的 Word2Vec 实 现 采 用 了 skip-gram 模 型 。skip-gram 的 训练 目标 是 学 习 单词 的 向 量 表示 ， 其 善于 在 同一 个 句子 预测 其 上 下 文 。 给 定 了 单词 序列 w1，w2，.…，wT，skip-gram 模 型 的 目标 是 最 大 








化 平均 对 数 似 然 ， 公 式 如 下 : 





» È 
a = > logp( Oy O, 


其 中 k 是 训练 窗口 的 大 小 。 每 个 单词 w 与 两 个 向 量 ujfHvwj 关 联 ， 并 且 由 单独 的 向 量 来 表示 。 通 过 给 定 的 单词 wj 正确 预测 wi 的 概率 是 由 softmax 模 型 决定 的 。softmax 模 型 如 下 : 
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exp (u,v 
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exp Ui Vy 


i. 
i 
-m 


V 表 示 词汇 量 。 

















由 于 计算 logp (wilwj) 的 成 本 与 V 成 正比 〈V 很 容易 就 达到 百 万 以 上 ) ， 所 以 softmax 这 种 skip-gram 模 型 是 很 昂贵 的 。 为 了 加 速 Word2Vec 计 算 ，M LIib 使 用 分 级 softmax， 它 可 以 减少 计算 Jogp (wil 
wj) 的 复杂 度 到 O (log (V) ) 。 














下 面 的 例子 演示 了 Word2Vec 的 使 用 。 














import org.apache.spark. 

import org.apache.spark.rdd._ 

import org.apache.spark.SparkContext. 

import org.apache.spark.mllib. feature. {Word2Vec, Word2VecModel} 

val input = sc.textFile ("text8") .map(line => line.split(" ") .toSeq) 

val word2vec = new Word2Vec() 

val model = word2vec. fit (input) 

val synonyms = model.findSynonyms("china", 40) 

for((synonym, cosineSimilarity) <- synonyms) { 
println(s"$synonym $cosineSimilarity") 

} 

model .save (sc, "myModelPath") 

val sameModel = Word2VecModel.load(sc, "myModelPath") 





11.143 ”标准 尺度 

















通过 缩放 到 单位 方差 和 /或 通过 在 训练 集 的 样本 上 使 用 列 摘要 统计 移 除 均值 使 特征 标准 化 ， 这 是 常见 的 预 处 理 步骤 。 例 如 ， 当 所 有 的 特征 都 有 单位 方差 和 /或 零 均 值 时 ， 支 持 向 量 机 的 RBF 核 或 者 L1 和 L2 
正规 化 线性 模型 通常 能 更 好 地 工作 。 标 准 化 可 以 提高 在 优化 过 程 中 的 收敛 速度 ， 并 且 还 可 以 防止 在 模型 训练 期 间 ， 非 常 大 的 差异 会 对 特征 发 挥 过 大 的 影响 。 


StandardScaler 的 构造 器 有 两 个 参数 : 
“ withMean: 默认 false。 用 于 缩放 前 求 均值 ， 这 将 建立 一 个 密集 的 输出 ， 所 以 不 能 在 稀疏 输入 上 正常 工作 ， 并 将 引发 异常 。 


“ withStd: 默认 true。 缩 放 数据 到 标准 单位 误差 。 











以 下 例子 演示 了 StandardScaler 的 使 用 。 








import org.apache.spark.SparkContext. 

import org.apache.spark.mllib.feature.StandardScaler 

import org.apache.spark.mllib.linalg.Vectors 

import org.apache.spark.mllib.util.MLUtils 

val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample libsvm data.txt") 

val scalerl = new StandardScaler().fit (data.map (x => x. features) ) 

val scaler2 = new StandardScaler(withMean = true, withStd = true) .fit (data.map(x => x.features) ) 
// scaler3 是 与 scaler2 相 同 的 模型 ， 并 且 产生 相同 的 转换 

val scaler3 = new StandardScalerModel (scaler2.std, scaler2.mean) 

// datal 将 是 单位 方差 

val datal = data.map(x => (x.label, scalerl.transform(x.features) ) ) 

// 不 转换 到 密集 向 量 ， 用 0 均值 转换 将 在 稀疏 向 量 引 起 异常 

// data2 将 是 单位 方差 和 0 均值 

val data2 = data.map(x => (x.label, scaler2.transform (Vectors .dense (x.features.toArray) ) ) ) 





11.144 正规 化 尺度 


正规 化 尺度 把 样本 划分 为 单位 Lp 范式 ， 即 维度 。 这 是 一 种 常见 的 对 文本 分 类 或 集群 化 的 操作 。 例 如 ， 两 个 L? 正 规 化 TF-IDF 向 量 的 点 积 是 这 些 向 量 的 余弦 近似 值 。 





设 二 维 空间 内 有 两 个 向 量 ? 和 7， 它 们 的 夹 角 为 6 (0<6<T) ， 则 点 积 定义 为 以 下 实数 : 


a-b = |a|” |b lcoso 


MLIib 提 供 Normalizer 支 持 正规 化 ，Normalizer 有 以 下 构造 参数 : 


p: 正规 化 到 LP 空 间 ， 默 认为 2。 

















下 面 的 例子 演示 了 Normalizer 的 使 用 。 








import org.apache.spark.SparkContext._ 

import org.apache.spark.mllib. feature.Normalizer 

import org.apache.spark.mllib.linalg.Vectors 

import org.apache.spark.mllib.util.MLUtils 

val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_libsvm data.txt") 
val normalizerl = new Normalizer() a z 

val normalizer2 = new Normalizer(p = Double.PositiveInfinity) 

//_datal 中 的 每 个 样本 将 被 使 用 $L^2$ 范 式 正规 化 

val datal = data.map(x => (x.label, normalizerl .transform(x.features))) 
// data2 中 的 每 个 样本 将 被 使 用 SL^\infty$ 范 式 正规 化 

val data2 = data.map(x => (x.label, normalizer2.transform(x.features))) 





11.14.5” 卡 方 特征 选择 器 




















ChisqSelector 用 于 卡 方 特征 选择 。 它 运转 在 具有 分 类 特征 的 标签 数据 上 。ChiSqSelector 对 基于 分 类 进行 独立 卡 方 测试 的 特征 排序 ， 并 且 过 滤 (选择 ) 最 接近 标签 的 顶部 特征 。 








ChiSsqSelector 有 以 下 构造 器 参数 : 


numTopFeatures: 选择 器 将 要 过 滤 (选择 ) 的 顶部 特征 数量 。 




















下 边 的 例子 演示 了 ChiSqSelector 的 使 用 。 





import org.apache.spark.SparkContext._ 
import org.apache.spark.mllib.linalg.Vectors 
import org.apache.spark.mllib.regression.LabeledPoint 
import org.apache.spark.mllib.util.MLUtils 
import org.apache.spark.mllib. feature.ChiSqSelector 
val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_libsvm_data.txt") 
// 因为 ChiSqSelector 需 要 分 类 特征 ， 所 以 把 数据 离散 到 16 个 箱子 
val discretizedData = data.map { lp => 
LabeledPoint (lp.label, Vectors.dense(lp.features.toArray.map { x => x / 16} ) ) 


} 
// 创建 一 个 选择 50 个 特征 的 ChiSqSelector 
val selector = new ChiSqSelector (50) 
// 创建 ChisqSelector 模 型 
val transformer = selector.fit (discretizedData) 
// 从 每 个 特征 向 量 过 滤 出 顶部 的 50 个 特征 
val filteredData = discretizedData.map { lp => 
LabeledPoint (lp.label, transformer.transform(lp. features) ) 


} 





11.14.6 Hadamard 积 



























































ElementwiseProduct 采 用 逐个 相 乘 的 方式 ， 使 用 给 定 的 权重 与 每 个 输入 向 量 相 乘 。 换 言 之 ， 它 采用 一 个 标量 乘法 器 扩展 数据 集 的 每 一 列 。 这 表示 Hadamard 积 对 输入 向 量 v， 使 用 转换 向 量 w， 最 终生 
成 一 个 结果 向 量 。Hadamard 积 可 由 以 下 公式 表示 : 
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ElementwiseProduct 的 构造 器 参数 为 : 


w: 转换 向 量 。 














下 面 代码 演示 了 ElementwiseProduct 的 使 





import org.apache.spark.SparkContext. 

import org.apache.spark.mllib.feature.ElementwiseProduct 

import org.apache.spark.mllib.linalg.Vectors 

[AE Ek EE; LE TAHT OE 

val data = sc.parallelize (Array (Vectors.dense (1.0, 2.0, 3.0), Vectors.dense (4.0, 5.0, 6.0))) 
val transformingVector = Vectors.dense(0.0, 1.0, 2.0) 

val transformer = new ElementwiseProduct (transformingVector) 

// 批 量变 换 和 每 行 变换 ， 得 到 相同 的 结果 

val transformedData = transformer.transform (data) 

val transformedData2 = data.map(x => transformer.transform(x) ) 





11.15 ”频繁 模式 挖掘 








E 题 已 多 年 了 。 其 数学 原理 读者 可 以 去 维基 百科 [1] 了 解 。MLlib 提 供 了 频繁 模 








分 析 大 规模 数据 集 的 第 一 个 步骤 通常 是 挖掘 频繁 项 目 、 项 目 集 、 亚 序列 或 其 他 子 结构 ， 这 在 数据 挖掘 中 作为 一 个 活跃 的 研究 3 
式 挖 掘 (frequent pattern mining) 的 并 行 实现 一 一 FP-growth 算 法 。 


FP-growth 








后 缀 树 (FP 树 ) 结构 对 交易 数据 

















给 定 一 个 交易 数据 集 ，FP-growth 的 第 一 步骤 是 计算 项 目的 频率 ， 并 确定 频繁 项 目 。FP-growth 虽 然 与 Apriori 类 算法 有 相同 的 设计 目的 ， 但 是 FP-growth 的 第 二 步 使 
编码 且 不 会 显 式 生成 候选 集 (生成 候选 集 通常 开销 很 大 ) 。 第 二 步 之 后 ， 就 可 以 从 FP 树 中 抽取 频繁 项 目 集 。MLlib 中 实现 了 FP-growth 的 平行 版 本 ， 叫 做 PFP。PFP 可 以 将 FP-growth 的 工作 分 发 到 其 他 机 


器 ， 比 单机 运行 有 更 好 的 扩展 性 。 





FPGrowth 有 以 下 参数 : 
. minSupport: 项 目 集 被 确定 为 频繁 的 最 小 数量 。 
.numPartitions: 分 发 任务 的 数量 。 


下 面 的 例子 演示 了 FPGrowth 的 使 用 。 





import org.apache.spark.rdd.RDD 
import org.apache.spark.mllib.fpm.{FPGrowth, FPGrowthModel } 
val transactions: RDD[Array[String]] = http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15528/OEBPS/Text/... 
val fpg = new FPGrowth() = 
.setMinSupport (0.2) 
.setNumPartitions (10) 
val model = fpg.run (transactions) 
model.freqItemsets.collect().foreach { itemset => 
println(itemset.items.mkString("(", ",", "]") +", "+ itemset. freq) 


} 





[由 关联 规则 的 维基 百科 https://en.wikipedia.org/wiki/Association_rule_learning。 


11.16 ”预言 模型 标记 语言 























预言 模型 标记 语言 (predictive model markup language, PMML) 是 一 种 基于 XML 的 语言 ， 它 能 够 定义 和 共享 应 用 程序 之 间 的 预测 模型 (predictive model) 。 
MLlib 支 持 将 模型 导出 为 预言 模型 标记 语言 ， 表 11-6 列 出 了 MLIib 模 型 导出 为 PM ML 的 相应 模型 。 


表 11-6 MLlip 模 型 导出 为 PMML 的 相应 模型 


MLlib 模型 PMML 模型 


KMeansModel ClusteringModel 





LinearRegressionModel RegressionModel (functionName="regression") 








RidgeRegressionModel RegressionModel (functionName="regression") 
( 续 ) 
MLlib 模型 PMML 模型 
LassoModel RegressionModel (functionName="regression") 
SVMModel RegressionModel (functionName="classification" normalizationMethod="none") 
Binary LogisticRegressionModel RegressionModel (functionName="classification" normalizationMethod="logit") 


下 面 的 例子 演示 了 将 KMeansModel 导 出 为 PMML 格 式 。 





import org.apache.spark.mllib.clustering.KMeans 

import org.apache.spark.mllib.linalg.Vectors 

val data = sc.textFile("data/mllib/kmeans_data.txt") 

val parsedData = data.map(s => Vectors.dense(s.split(' ') .map(_.toDouble) )) .cache () 
val numClusters = 2 

val numIterations = 20 

val clusters = KMeans.train(parsedData, numClusters, numIterations) 


// 导出 为 PMML 


println ("PMML Model:\n" + clusters.toPMML) 
// 导出 为 PMML 格 式 的 字符 串 

clusters.toPMML 

// 导出 为 PMML 格 式 的 本 地 文件 

clusters .toPMML ("/tmp/kmeans. xml") 

// 导出 为 PMML 格 式 的 数据 到 分 布 式 文件 系统 目录 
clusters .toPMML (sc, "/tmp/kmeans") 

// 导出 为 EMML 格 式 到 OutputStream 

clusters .toPMML (System. out) 





11.17 管道 


















































Spark 1.2 增 加 了 一 个 新 包 spark.ml， 目 的 是 提供 一 套 高 层次 的 AP1， 帮 助 用 户 创建 、 调 试 机 器 学 习 的 管道 。spark.ml 的 标准 化 API 用 于 将 多 种 机 器 学 习 算法 组 合 到 一 个 管道 或 工作 流 中 。 下 面 列 出 了 
Spark ML API 的 主要 概念 : 














- ML Dataset: 由 Hive table 或 者 数据 源 的 数据 构成 的 可 容纳 各 种 数据 类 型 的 DataFrame 作 为 数据 集 。 例 如 ， 数 据 集 可 以 由 不 同 的 列 分 别 存储 文本 、 特 征 向 量 、 标 签 和 预测 值 。 


- Transformer: 是 一 种 将 DataFrame 转 换 为 另 一 个 DataFrame 的 算法 。 例 如 ，ML 模 型 是 一 个 将 特征 RDD 转 换 为 预测 值 RDD 的 Transformet。 


. Estimator: 适用 于 DataFrame， 并 生成 一 个 Transformer。 例 如 ， 学 习 算 法 是 一 个 在 数据 集 上 训练 并 生成 一 个 模型 的 Estimator。 


“ Pipeline: 链接 多 个 Transformer 和 Estimator， 一 起 构成 ML 的 工作 流 。 


+ Param: 所 有 Transformer 和 Estimator 用 于 指定 参数 的 通用 API。 


11.17.1 管道 工作 原理 


机 器 学 习 中 ， 运 行 一 系列 的 算法 去 处 理 数据 或 者 从 数据 学 习 的 场景 是 很 常见 的 。 例 如 ， 一 个 简单 的 文本 文档 处 理工 作 流 可 能 包含 以 下 阶段 : 


1) 将 文档 文本 切 分 成 单词 ; 


2) 将 文档 的 单词 转换 为 数字 化 的 特征 向 量 ; 











3) 使 用 特征 向 量 和 标签 学 习 一 个 预测 模型 。 








Spark ML 以 一 系列 按 序 运 行 的 Pipelinestage 组 成 的 管道 来 表示 这 样 的 工作 流 。 这 一 系列 的 Stage 要 么 是 Transformer， 要 么 是 Estimator。 数 据 集 通 过 管道 中 的 每 个 Stage 都 会 被 修改 。 比 如 
Transformer 的 transform () 方法 将 在 数据 集 上 被 调用 ，Estimator 的 fit () 方法 被 调用 生成 一 个 Transformer， 然 后 此 Transformer 的 transform () 方法 也 将 在 数据 集 上 被 调用 。 图 11-9 展 示 了 简单 文本 
文档 工作 流 例子 使 用 管道 的 处 理 流程 。 
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图 11-9 ”Estimator.fit 方 法 的 管道 处 理 流 程 











11-9 说 明 整 个 管道 由 3 个 Stage 组 成 。Tokenizer 和 HashingTF 都 是 Transformer，Logistic-Regression 是 Estimator。 每 个 圆柱 体 都 说 明 它 本 身 是 一 个 DataFrame。 整 个 处 理 流程 如 下 : 
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数据 集 上 调用 LogisticRegressionModel 的 transform () 。 








) 











在 由 原生 文本 文档 构成 的 原始 数据 集 上 应 用 Pipeline.fit () 方法 。 








2) Tokenizer.transform () 将 原生 文本 文档 切 分 为 单词 ， 并 向 数据 集 增 加 单词 列 。 











HashingTF.transform () 将 单词 列 转换 为 特征 向 量 ， 并 向 数据 集 增加 向 量 列 。 


因为 LogisticRegression 是 Estimator， 所 以 管道 第 一 次 调用 LogisticRegression.fit () 生成 了 LogisticRegressionModel。 如 果 管 道中 还 有 更 多 的 Stage， 将 会 在 传递 数据 集 到 下 一 个 Stage 之 前 在 
























































管道 本 身 是 一 个 Estimator。 因 此 调用 Pipeline 的 fit () 方法 最 后 生成 了 PipelineModel，PipelineModel 也 是 一 个 Transformer。 这 个 PipelineModel 会 在 测试 时 间 使 用 ， 测 试 过 程 如 图 11-10 所 示 。 
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图 11-10 Pi 
图 11-10 说 明 PipelineModel 的 测试 过 程 与 图 11-9 的 管道 有 相同 的 Stage 数 量 。 但 是 加 

















11-9 的 管道 中 的 所 有 Estimator 在 此 时 都 已 经 变 为 Transformer。 当 在 测试 数 
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elineModel.transform 方 法 的 管道 处 理 流程 





居 集 上 调用 PipelineModel 的 


transform () 方法 时 ， 数 据 在 管道 中 按 序 通 过 。 每 个 Stage 的 transform () 方法 都 会 更 新 数据 集 ， 并 将 数据 集 传递 给 下 一 个 Stage。 














刚才 介绍 的 例子 中 ， 管 道 是 线性 的 ， 即 每 个 stage 都 使 








由 上 一 个 stage 生 产 的 数据 。 只 要 数据 流 图 


11.17.2 ”管道 API 介 绍 























Spark ML 的 Transformer 和 Estimator 指 定 参数 具有 统一 的 APIl。 有 两 种 方式 指定 参数 : 
“ 给 实例 设置 参数 。 例 如 ，lr 是 LogisticRegression 的 实例 ， 可 以 调用 lr.setMaxIter (10) 使 得 调用 lr.fit 


“ 传递 ParamMap 给 fit () 或 者 transform () 方法 。 通 过 这 种 方式 指定 的 参数 值 将 会 覆盖 所 有 由 set 方 








下 面 的 例子 演示 了 Estimator、Transformer 和 Param 的 使 




















构成 了 DAG， 它 就 有 可 能 不 是 线性 的 。 如 果 管道 构成 了 DAG， 那 么 这 些 Stage 就 必须 指定 拓扑 顺序 。 


O 时 最 多 迭代 10 次 。 


式 指定 的 参数 值 。 





val conf = new SparkConf () .setAppName ("SimpleParamsExample") 
val sc new SparkContext (conf) 

val sqlContext = new SQLContext (sc) 

// 准备 训练 数据 ，Spark SQL 可 以 将 RDD[LabeledPoint] 转 换 为 DataFrame 
val training = sc.parallelize (Seq( 


LabeledPoint (1.0, Vectors.dense(0.0, 1.1, 0.1)), 
LabeledPoint (0.0, Vectors.dense (2.0, 1.0, -1.0)), 
LabeledPoint (0.0, Vectors.dense (2.0, 1.3, 1.0)), 
LabeledPoint (1.0, Vectors.dense (0.0, 1.2, -0.5)))) 
// 创建 一 个 LogisticRegression 实 例 ， 此 实例 是 一 个 Estimator 


val lr = new LogisticRegression () 
// 打印 输出 参数 ， 文 件 和 任何 默认 值 
Println ("LogisticRegression parameters:\n" + lr.explainParams() + "\n") 
// 使 用 setter 方 法 设置 参数 
lr.setMaxIter (10) .setRegParam (0.01) 
// 训练 LogisticRegression 模 型 
val modell = 1r.fit (training.toDF) 
println ("Model 1 was fit using parameters: " + modell.parent.extractParamMap) 
// 使 用 一 个 ParamMap 指 定 参 数 
val paramMap = ParamMap(lr.maxIter -> 20) 
paramMap.put (lr.maxIter, 30) // 发 盖 原始 的 maxIter 
paramMap.put (lr.regParam -> 0.1, lr.threshold -> 0.55) // 指定 多 个 参数 
// 合并 ParamMap 
val paramMap2 = ParamMap (lr.probabilityCol -> "myProbability") 
val paramMapCombined = paramMap ++ paramMap2 
// 使 用 paramMapCombined 训 练 模型 
val model2 = lr.fit(training.toDF, paramMapCombined) 
println ("Model 2 was fit using parameters: " + model2.parent.extractParamMap) 
// 准备 测试 数据 
val test sc.parallelize (Seq ( 
LabeledPoint (1.0, Vectors.dense(-1.0, 1.5, 1.3)), 
LabeledPoint (0.0, Vectors.dense (3.0, 2.0, -0.1)), 
LabeledPoint (1.0, Vectors.dense(0.0, 2.2, -1.5)))) 
case class LabeledDocument (id: Long, text: String, label: Double) 
case class Document (id: Long, text: String) 
// 导入 implicit 可 以 将 sqlContext 转换 为 DataFrame 
val conf = new SparkConf () .setAppName ("SimpleTextClassificationPipeline") 
val sc new SparkContext (conf) 
val sqlContext = new SQLContext (sc) 
import sqlContext.implicits._ 
// 准备 训练 文档 
val training = sc.parallelize (Seq( 
LabeledDocument (OL, "a b c d e spark", 1.0), 
LabeledDocument (1L, "b d", 0.0), 
LabeledDocument (2L, "spark f g h", 1.0), 
LabeledDocument (3L, "hadoop mapreduce", 0.0))) 
// 配置 ML pipeline， 它 由 三 个 stage 组 成 : tokenizer, hashingTFfelr 
val tokenizer new Tokenizer () 
.setInputCol ("text") 
.SetOutputCol ("words") 
val hashingTF = new HashingTF() 
.setNumFeatures (1000) 
.setInputCol (tokenizer.getOutputCol) 
.setOutputCol ("features") 
val lr new LogisticRegression () 
.setMaxIter (10) 
.setRegParam (0.01) 
val pipeline = new Pipeline() 
.SetStages (Array (tokenizer, hashingTF, 1r)) 


// 改变 输出 列 名 


) 
) 
) 











下 面 的 例子 演示 了 管道 的 使 














// LogisticRegression.transform 仅 使 用 'features' 列 ， 由 于 之 前 使 用 1r .probabilityCol 对 列 重 命名 ， 
// 所 以 最 后 输出 'myProbability' 列 ， 而 不 是 'probability' 
model2.transform(test.toDF) 

.Select ("features", "label", "myProbability", "prediction") 

«collect () 


.foreach { case Row (features: Vector, label: Double, prob: Vector, prediction: Double) =>println(s"($features, $label) -> prob=Sprob, prediction=$prediction") 


} 
sc.stop() 
val model = pipeline.fit (training.toDF) 
val test sc.parallelize (Seq ( 
Document (4L, "spark i j k"), 
Document (5L, "1 mn"), 
Document (6L, "mapreduce spark"), 
Document (7L, "apache hadoop") ) ) 
// 在 测试 文档 上 做 预测 
model.transform(test.toDF) 
¿select ("id", "text", "probability", "prediction") 
-collect () 


.foreach { case Row(id: Long, text: String, prob: Vector, prediction: Double) => println(s" ($id, $text) --> prob=Sprob, prediction=$prediction") 
} 
sc.stop() 





11.173 交叉 验证 














模型 选择 是 Spark ML 中 很 重要 的 课题 。 通 过 对 整个 管道 的 调整 ， 而 不 是 对 管道 中 的 每 个 元 素 的 调整 ， 促 成 对 管道 模型 的 选择 。 当 前 spark.ml 使 用 CrossValidator 支 持 模型 选择 。CrossValidator 本 身 携 
带 一 个 Estimator、 一 组 ParamMap 以 及 一 个 Evaluator。CrossValidator 开 始 先 将 数据 集 划分 为 多 组 ， 每 组 都 由 训练 数据 集 和 测试 数据 集 组 成 。 例 如 ， 需 要 划分 3 组 ， 那 么 CrossValidator 将 生成 三 个 数据 集 
对 UA, Mid) 。 每 一 对 都 使 用 2/3 的 数据 用 于 训练 ，1/3 的 数据 用 于 测试 。CrossValidator 会 迭代 ParamMap 的 集合 。 对 于 每 个 ParamMap， 它 都 会 训练 给 定 的 Estimator 并 使 用 给 定 的 Evaluator 计 算 。 
ParamMap 将 会 产 出 最 佳 的 计算 模型 (对 多 个 数据 集 对 求 平均 ) ，CrossValidator 最 终 使 用 这 个 最 佳 的 ParamMap 和 整个 数据 集 拟 合 Estimator。 下 边 的 例子 演示 了 CrossValidator 的 使 用 。 使 用 
ParamGridBuilder 构 造 网 格 参数 : hashingTF.numFeatures 有 3 个 值 ，rregParam 有 2 个 值 。 这 个 网 格 将 会 有 3x2 = 6 个 参数 设置 供 CrossValidator 选 择 。 使 用 了 2 组 数据 集 对 ， 那 么 一 共有 (3x2) x2=12 
种 不 同 的 模型 被 训练 。 


Oe 













































































使 用 ParamGridBuilder 构 建 网 格 参数 ， 会 使 CrossValidator 的 开销 很 大 ， 要 慎重 使 用 。 








下 面 的 代码 演示 了 交叉 验证 的 使 用 。 

















case class LabeledDocument (id: Long, text: String, label: Double) 
case class Document (id: Long, text: String) 
val conf = new SparkConf () .setAppName ("CrossValidatorExample") 
val sc = new SparkContext (conf) 
val sqlContext = new SQLContext (sc) 
import sqlContext.implicits._ 
// 准备 LabeledDocument 
val training = sc.parallelize (Seq( 
LabeledDocument (OL, "a b c d e spark", 1.0), 
LabeledDocument (1L, "b d", 0.0), 
LabeledDocument (2L, "spark f g h", 1.0), 
LabeledDocument (3L, "hadoop mapreduce", 0.0), 
LabeledDocument (4L, "b spark who", 1.0), 
LabeledDocument (5L, "g d a y", 0.0), 
LabeledDocument (6L, "spark fly", 1.0), 
LabeledDocument (7L, "was mapreduce", 0.0), 
LabeledDocument (8L, "e spark program", 1.0), 
LabeledDocument (9L, "a e c 1", 0.0), 
LabeledDocument (10L, "spark compile", 1.0), 
LabeledDocument (11L, "hadoop software", 0.0))) 
val tokenizer = new Tokenizer () 
.setInputCol ("text") 
.SetOutputCol ("words") 
val hashingTF = new HashingTF() 
. set InputCol (tokenizer.getOutputCol) 
.setOutputCol ("features") 
val lr = new LogisticRegression () 
.setMaxIter (10) 
val pipeline = new Pipeline() 
.SetStages (Array (tokenizer, hashingTF, lr)) 
val crossval = new CrossValidator () 
.setEstimator (pipeline) 
.setEvaluator (new BinaryClassificationEvaluator) 
// 使 用 ParamGridBuilder 构 造 网 格 参 数 : hashingTF.numFeatures 有 3 个 值 ，r .regParam 有 2 个 值 
// 这 个 网 格 将 会 有 3 x 2 = 6 个 参数 设置 供 CrossValidator 选择 
val paramGrid = new ParamGridBuilder () 
.addGrid(hashingTF.numFeatures, Array(10, 100, 1000)) 
.addGrid(1r.regParam, Array(0.1, 0.01)) 
-build() 
crossval.setEstimatorParamMaps (paramGrid) 
crossval.setNumFolds(2) // 实际 会 使 用 3+ 个 
// 运行 交叉 验证 并 选择 最 佳 的 参数 集合 
val cvModel = crossval. fit (training.toDF) 
val test = sc.parallelize (Seq( 
Document (4L, "spark i j k"), 
Document (5L, "1 mn"), 
Document (6L, "mapreduce spark"), 
Document (7L, "apache hadoop") ) ) 
// cvModel1 使 用 找到 的 最 佳 模型 (LTMode1) ， 在 测试 文档 上 做 预测 
cvModel.transform(test.toDF) 
.Select ("id", "text", "probability", "prediction") 
collect () 
.foreach { case Row(id: Long, text: String, prob: Vector, prediction: Double) =>println(s"($id, $text) --> prob=$prob, prediction=$prediction") 
} 
sc. stop () 





11.18 小结 











Spark MLlib 与 Spark ML 共同 搭建 了 Spark 目 前 的 机 器 学 习 平台 。Spark MLIib 作 为 机 器 学 习 的 仓库 ， 收 纳 了 统计 、 分 类 、 回 归 、 决 策 树 、 过 滤 、 聚 类 、 特 征 提取 与 转型 、 数 据 挖掘 等 领域 的 大 量 算法 实 
Hl. Spark MLlib 提 供 的 API 都 容易 使 用 ， 大 大 降低 了 用 户 使 用 这 些 复杂 算法 的 门槛 。Spark ML 作为 高 层次 的 AP1， 提 供 了 机 器 学 习 的 工作 流 处 理 能 力 ， 并 提供 交叉 验证 帮助 开发 者 选择 最 佳 的 计算 模型 。 




































































附录 A Utils 




















Utils 是 Spark 中 最 常用 的 工具 类 之 一 ， 如 果 不 关 心 其 实现 也 不 会 对 阅读 Spark 源 码 有 太 大 影响 。 下 面 将 逐个 介绍 Utils 提 供 的 方法 。 





1.localHostName 


功能 描述 : 获取 本 地 机 器 名 。 





def localHostName(): String = { 
customHostname.getOrEl1se (localIpAddressHostname) 
} 





2.getDefaultPropertiesFile 





功能 描述 : 获取 默认 的 Spark 属 性 文件 。 





def getDefaultPropertiesFile(env: Map[String, String] = sys.env): String = { 
env.get ("SPARK_CONF_DIR") 
.OrElse (env.get ("SPARK HOME") .map { t => s"$t${File.separator}conf" }) 
.map { t => new File (s"$t${File.separator}spark-defaults.conf") } 
.filter( .isFile) 
-map (_.getAbsolutePath) 
-orNull 





3.loadDefaultSparkProperties 














功能 描述 : 加 载 指 定 文件 中 的 Spark 属 性 ， 如 果 没 有 指定 文件 ， 则 加 载 默认 Spark 属 性 文件 的 属性 。 





def loadDefaultSparkProperties (conf: SparkConf, filePath: String = null): String = { 
val path = Option (filePath) .getOrElse (getDefaultPropertiesFile() ) 
Option (path) .foreach { confFile => 
getPropertiesFromFile(confFile) .filter { case (k, v) => 
k.startsWith ("spark.") 
}.foreach { case (k, v) => 
conf.setIfMissing(k, v) 
sys.props.getOrElseUpdate(k, v) 


path 


4.getCallSite 

















功能 描述 : 获取 当前 SparkContext 的 当前 调用 栈 ， 将 栈 里 最 靠近 栈 底 的 属于 Spark 或 者 scala 核 心 的 类 压 入 callstack 的 栈 顶 ， 并 将 此 类 的 方法 存 入 lastSparkMethod; 将 栈 里 最 靠近 栈 顶 的 用 户 类 放 入 
callstack， 将 此 类 的 行 号 存 入 firstUserLine， 类 名 存 入 firstUserFile， 最 终 返 回 的 样 例 类 Callsite 存 储 了 最 短 栈 和 长 度 默认 为 20 的 最 长 栈 的 样 例 类 。 在 JavaWordCount 例 子 中 ， 获 得 的 数据 如 下 : 





























+ 最 短 栈 : JavaSparkContext at JavaWordCount.java: 44; 
+ 最 长 栈 : orgapache.spark.api.java.JavaSparkContext.<init> (JavaSparkContext.scala: 61) 


org.apache.spark.examples.JavaWordCount.main (JavaWordCountjava: 44) 。 





def getCallSite(skipClass: String => Boolean = coreExclusionFunction): CallSite = { 
val trace = Thread.currentThread.getStackTrace().filterNot { ste: StackTrace Element => 


ste == null || ste.getMethodName == null || ste.getMethodName.contains ("getStackTrace") 
} 
var lastSparkMethod = "<unknown>" 
var firstUserFile = "<unknown>" 


var firstUserLine = 0 
var insideSpark = true 
var callStack = new ArrayBuffer [String] () :+ "<unknown>" 
for (el <- trace) { 
if (insideSpark) { 
if (skipClass(el.getClassName)) { 
lastSparkMethod = if (el.getMethodName "<init>") { 
el.getClassName. substring (el.getClassName.lastIndexOf('.') + 1) 
} else { 
el.getMethodName 





} 
callStack(0) = el.toString // Put last Spark method on top of the stack trace. 
} else { 
firstUserLine = el.getLineNumber 
firstUserFile = el.getFileName 
callStack += el.toString 
insideSpark = false 
} 
} else { 
callStack += el.toString 
} 


} 
val callStackDepth = System.getProperty ("spark.callstack.depth", "20") .toInt 
Callsite ( 
shortForm = s"$lastSparkMethod at $firstUserFile:$firstUserLine", 
longForm = callStack. take (callStackDepth) .mkString("\n") ) 





5.startServiceOnPort 








功能 描述 : Scala 跟 其 他 脚本 语言 一 样 ， 函 数 也 可 以 传递 ， 此 方法 正 是 通过 回调 startService 这 个 函数 来 启动 服务 ， 并 最 终 返 回 startService 返 回 的 service 地 址 及 端口 。 如 果 启 动 过 程 有 异常 ， 还 会 多 > 
试 ， 直 到 达到 maxRetries 表 示 的 最 大 次 数 。 























def startServiceOnPort [T] ( 
startPort: Int, 
startService: Int => (T, Int), 
conf: SparkConf, 
serviceName: String = ""): (T, Int) = { 
require (startPort == 0 || (1024 <= startPort && startPort < 65536), 
"startPort should be between 1024 and 65535 (inclusive), or 0 for a random free port.") 
val serviceString = if (serviceName.isEmpty) "" else s" 'SserviceName'" 
val maxRetries = portMaxRetries (conf) 
for (offset <- 0 to maxRetries) { 
val tryPort = if (startPort == 0) { 


startPort 
} else { 

((startPort + offset - 1024) % (65536 - 1024)) + 1024 
} 
try { 

val (service, port) = startService (tryPort) 


logInfo(s"Successfully started service$serviceString on port $port.") 
return (service, port) 
} catch { 
case e: Exception if isBindCollision(e) => 
if (offset >= maxRetries) { 
val exceptionMessage = 
s"${e.getMessage}: Service$serviceString failed after $maxRetries retries!" 
val exception = new BindException (exceptionMessage) 
exception. setStackTrace (e.getStackTrace) 
throw exception 
} 
logWarning(s"Service$serviceString could not bind on port $tryPort. " + 
s"Attempting port ${tryPort + 1}.") 
} 
f 


throw new SparkException(s"Failed to start service$serviceString on port $startPort") 





6.createDirectory 
































功能 描述 : 用 spark+UUID 的 方式 创建 临时 文件 目录 ， 如 果 创建 失败 会 多 次 重 试 ， 最 多 重 试 10 次 。 


























def createDirectory(root: String, namePrefix: String = "spark"): File = { 
var attempts = 0 
val maxAttempts = MAX DIR CREATION ATTEMPTS 
var dir: File = null 
while (dir == null) { 
attempts += 1 
if (attempts > maxAttempts) { 


throw new IOException ("Failed to create a temp directory (under " + root + ") after " tmaxAttempts + " attempts!") 
} 
try { 
dir = new File(root, "spark-" + UUID.randomUUID.toString) 
if (dir.exists() || !dir.mkdirs()) { 
dir = null 


f 
} catch { case e: SecurityException => dir = null; } 


dir 





7.getOrCreateLocalRootDirs 











功能 描述 : 根据 spark.local.dir 的 配置 ， 作 为 本 地 文件 的 根 目录 ， 在 创建 一 、 二 级 目录 之 前 要 确保 根 目 录 是 存在 的 。 然 后 调用 createDirectory 创 建 一 级 目录 。 











private[spark] def getOrCreateLocalRootDirs (conf: SparkConf): Array[String] = { 
if (isRunningInYarnContainer(conf)) { 
getYarnLocalDirs (conf) .split(",") 
} else { 
Option (conf .getenv ("SPARK_LOCAL_DIRS") ) 
-getOrElse (conf.get ("spark.local.dir", System.getProperty ("java.io.tmpdir") ) ) 


-split(",") 
.flatMap { root => 
try { 
val rootDir = new File (root) 
if (rootDir.exists || rootDir.mkdirs()) { 


val dir = createDirectory (root) 
chmod700 (dir) 
Some (dir.getAbsolutePath) 
} else { 
logError (s"Failed to create dir in $root. Ignoring this directory.") 
None 
} 
} catch { 
case e: IOException => 
logError(s"Failed to create local root dir in $root. Ignoring this directory.") 
None 
} 
} 
.toArray 





8.getLocalDir 


功能 描述 : 查询 Spark 本 地 文件 的 一 级 目录 。 





def getLocalDir (Conf: SparkConf): String = { 
getOrCreateLocalRootDirs (conf) (0) 
} 





9.createTempDir 


功能 描述 : 在 Spark 一 级 目录 下 创建 临时 目录 ， 并 将 目录 注册 到 shutdownDeletePaths: scala.collection.mutable.HashSet[String] 中 。 





def createTempDir ( 
root: String = System.getProperty("java.io.tmpdir"), 
namePrefix: String = "spark"): File = { 
val dir = createDirectory(root, namePrefix) 
registerShutdownDeleteDir (dir) 
dir 





10.registerShutdownDeleteDir 


功能 描述 : 将 目录 注册 到 shutdownDeletePaths: scala.collection.mutable.HashSet[String] 中 ， 以 便 在 进程 退出 时 删除 。 





def registerShutdownDeleteDir (file: File) { 
val absolutePath = file.getAbsolutePath () 
shutdownDeletePaths.synchronized { 
shutdownDeletePaths += absolutePath 
} 





11.hasRootAsShutdownDeleteDir 


功能 描述 : 判断 文件 是 否 匹 配 关闭 时 要 删除 的 文件 及 目录 ，shutdownDeletePaths: scala.collection.mutable.HashSet[String] 存 储 在 进程 关闭 时 要 删除 的 文件 及 目录 。 








def hasRootAsShutdownDeleteDir (file: File): Boolean = { 
val absolutePath = file.getAbsolutePath () 
val retval = shutdownDeletePaths.synchronized { 
shutdownDeletePaths.exists { path => 
!absolutePath.equals (path) && absolutePath.startsWith (path) 
} 
} 
if (retval) { 
logInfo ("path = " + file + ", already present as root for deletion.") 
} 


retval 





12.deleteRecursively 





功能 描述 : 用 于 删除 文件 或 者 删除 目录 及 其 子 目 录 、 子 文件 ， 并 且 从 shutdownDelete-Paths: scala.collection.mutable.HashSet[String] 中 移 除 此 文件 或 目录 。 





def deleteRecursively (file: File) { 
if (file != null) { 
try { 

if (file.isDirectory && !isSymlink(file)) { 
var savedIOException: IOException = null 
for (child <- listFilesSafely(file)) { 

try { 
deleteRecursively (child) 


} catch { 
case ioe: IOException => savedIOException = ioe 


} 


} 
if (savedIOException != null) { 
throw savedIOException 
} 
shutdownDeletePaths.synchronized { 
shutdownDeletePaths. remove (file.getAbsolutePath) 
} 


} 
} finally { 
if (!file.delete()) { 
if (file.exists()) { 
throw new IOException ("Failed to delete: " + file.getAbsolutePath) 
} 





13.getSparkClassLoader 


功能 描述 : 获取 加 载 当前 class 的 ClassLoader。 





def getSparkClassLoader = getClass.getClassLoader 





14.getContextOrSparkClassLoader 











功能 描述 : 用 于 获取 线程 上 下 文 的 ClassLoader， 没 有 设置 时 获取 加 载 Spark 的 ClassLoader。 








def getContextOrSparkClassLoader = 
Option (Thread. currentThread () .getContextClassLoader) .getOrElse (getSparkClassLoader) 





15.newDaemonCachedThreadPool 











功能 描述 : 使 用 Executors.newCachedThreadPool 创 建 的 缓存 线程 池 。 








def newDaemonCachedThreadPool (prefix: String): ThreadPoolExecutor = { 
val threadFactory = namedThreadFactory (prefix) 
Executors .newCachedThreadPool (threadFactory) .asInstanceOf [ThreadPoolExecutor] 





16.doFetchFile 











功能 描述 : 使 用 URLConnection 通 过 HTTP、HTTPS、FIP 等 协议 下 载 文件 。 








private def doFetchFile(url: String, targetDir: File, filename: String, conf: SparkConf,securityMgr: SecurityManager, hadoopConf: Configuration) { 
val tempFile = File.createTempFile("fetchFileTemp", null, new File (targetDir.getAbsolutePath) ) 
val targetFile = new File(targetDir, filename) 
val uri = new URI (url) 
val fileOverwrite = conf.getBoolean ("spark.files.overwrite", defaultValue = false) 
Option (uri.getScheme) .getOrElse ("file") match { 
case "http" | "https" | "ftp" => 
logInfo("Fetching " + url + " to " + tempFile) 
var uc: URLConnection = null 
if (securityMgr.isAuthenticationEnabled()) { 
logDebug("fetchFile with security enabled") 
val newuri = constructURIForAuthentication (uri, securityMgr) 
uc = newuri.toURL() .openConnection () 
uc.setAllowUserInteraction (false) 
} else { 
logDebug("fetchFile not using security") 
uc = new URL(url) .openConnection () 


val timeout = conf.getInt ("spark.files.fetchTimeout", 60) * 1000 
uc.setConnectTimeout (timeout) 
uc.setReadTimeout (timeout) 
uc.connect () 
val in = uc.getInputStream() 
downloadFile(url, in, tempFile, targetFile, fileOverwrite) 
case "file" => 
val sourceFile = if (uri.isAbsolute) new File(uri) else new File(url) 
copyFile(url, sourceFile, targetFile, fileOverwrite) 
case _ => 
val fs = getHadoopFileSystem(uri, hadoopConf) 
val in = fs.open(new Path (uri) ) 
downloadFile(url, in, tempFile, targetFile, fileOverwrite) 





17.fetchFile 











功能 描述 : 如 果 文 件 在 本 地 有 缓存 ， 则 从 本 地 获取 ， 否 则 通过 HTTP、HTTPS、FTP 等 协议 远程 下 载 。 最 后 对 .tar、.tar.gz 等 格式 的 文件 解压 缩 后 ， 调 用 shell 命 令 行 的 chmod 命 令 给 文件 增加 a+x 的 权 











限 。 





def fetchFile( 
url: String, 
targetDir: File, 
conf: SparkConf, 
securityMgr: SecurityManager, 
hadoopConf: Configuration, 
timestamp: Long, 
useCache: Boolean) { 
val fileName = url.split("/") .last 
val targetFile = new File(targetDir, fileName) 
val fetchCacheEnabled = conf.getBoolean ("spark.files.useFetchCache", defaultValue = true) 
if (useCache && fetchCacheEnabled) { 
val cachedFileName = s"${url.hashCode}$ {timestamp} cache" 
val lockFileName = s"${url.hashCode}${timestamp} lock" 
val localDir = new File (getLocalDir (conf) ) C 
val lockFile = new File(localDir, lockFileName) 
val raf = new RandomAccessFile(lockFile, "rw") 
val lock = raf.getChannel () .lock() 
val cachedFile = new File(localDir, cachedFileName) 
try { 
if (!cachedFile.exists()) { 
doFetchFile(url, localDir, cachedFileName, conf, securityMgr, hadoopConf) 


} 
} finally { 
lock.release () 
} 
copyFile ( 
url, 
cachedFile, 


targetFile, 
conf.getBoolean ("spark.files.overwrite", false) 
) 
} else { 
doFetchFile(url, targetDir, fileName, conf, securityMgr, hadoopConf) 
} 
if (fileName.endsWith(".tar.gz") || fileName.endsWith(".tgz")) { 
loginfo("Untarring " + fileName) 
Utils.execute (Seq ("tar", "-xzf", fileName), targetDir) 
} else if (fileName.endsWith(".tar")) { 
loginfo("Untarring " + fileName) 
Utils.execute (Seq ("tar", "-xf", fileName), targetDir) 


} 
FileUtil.chmod(targetFile.getAbsolutePath, "atx") 





18.executeAndGetOutput 








功能 描述 : 执行 一 条 command 命 令 ， 并 且 获 取 它 的 输出 。 调 














stdoutThread 的 join 方 法 ， 让 当前 线程 等 待 stdoutThread 执 行 完 成 。 





def executeAndGetOutput ( 

command: Seq[String], 
workingDir: File = new File("."), 
extraEnvironment: Map[String, String] = Map.empty): 

val builder = new ProcessBuilder (command: _*) 
.directory (workingDir) 7 

val environment = builder.environment () 

for ((key, value) <- extraEnvironment) { 
environment.put (key, value) 


String = { 


val process = builder.start () 
new Thread("read stderr for " + command(0)) { 
override def run() { 


for (line <- Source. fromInputStream(process.getErrorStream) .getLines () ) 


System.err.print1n (line) 
} 
} 
}.start () 
val output = new StringBuffer 
val stdoutThread = new Thread("read stdout for " + command(0)) { 
override def run() { 


for (line <- Source. fromInputStream (process .getInputStream) .getLines () ) 


output .append (line) 
} 
} 


} 
stdoutThread. start () 
val exitCode = process.waitFor () 
stdoutThread. join () // Wait for it to finish reading output 
if (exitCode != 0) { 
logError(s"Process $command exited with code $exitCode: $output") 


throw new SparkException(s"Process $command exited with code $exitCode") 


} 
output .toString 


{ 


{ 





19.memoryStringToMb 


功能 描述 : 将 内 存 大 小 字符 串 转换 为 以 MB 为 单位 的 整 型 值 。 








def memoryStringToMb(str: String): Int = { 
val lower = str.toLowerCase 
if (lower.endsWith("k")) { 
(lower.substring(0, lower.length-1).toLong / 1024) .toInt 
} else if (lower.endsWith("m")) { 
lower.substring(0, lower.length-1) .toInt 
} else if (lower.endsWith("g")) { 
lower.substring(0, lower.length-1).toInt * 1024 
} else if (lower.endsWith("t")) { 
lower.substring(0, lower.length-1).toInt * 1024 * 1024 
} else {// no suffix, so it's just a number in bytes 
(lower.toLong / 1024 / 1024) .toInt 
} 





附录 B Akka 


1.Akka 简 介 














Akka 是 一 款 提供 了 























于 构建 高 并 发 的 、 分 布 式 的 、 可 伸缩 的 、 基 于 Java 虚 拟 机 的 消息 驱动 应 








的 工 











集 和 运 





行 时 环境 。 从 下 面 Akka 官 网 提供 的 一 段 代码 示例 ， 可 以 看 出 Akka 并 发 编程 的 简约 。 





Case class Greeting (who: String) 
Class GreetingActor extends Actor with ActorLogging { 
def receive = { 
case Greeting(who) log.info("Hello " + who) 
} 
} 
val system = ActorSystem("MySystem") 
val greeter = system.actorOf (Props[GreetingActor], name = "greeter") 
greeter ! Greeting("Charlie Parker") 




















Akka 提 供 了 分 布 式 的 框架 ， 意 味 着 











户 不 








要 考虑 如 何 实现 分 布 式 部 署 。Akka 官 网 提供 了 下 面 的 示例 演示 如 何 获取 远程 Actor 的 引用 。 





// config on all machines 


akka { 
actor { 
provider = akka.remote.RemoteActorRefProvider 
deployment { 
/greeter { 
remote = akka.tcp://MySystem@machinel : 2552 
} 
} 
} 
} 
// -一 -一 -一 -一 -一 一- 


// define the greeting actor and the greeting message 

case class Greeting(who: String) extends Serializable 

class GreetingActor extends Actor with ActorLogging { 
def receive = { 


case Greeting(who) log.info("Hello " + who) 


// -一 -一 -一 -一 -一 
// on machine 1: empty system, target for deployment from machine 2 
val system = ActorSystem("MySystem") 

// 
// on machine 2: Remote Deployment - deploying on machinel 

val system = ActorSystem("MySystem") 

val greeter system.actorOf (Props[GreetingActor], name = "greeter") 
// 
// on machine 3: Remote Lookup (logical home of “greeter” is machine2, remote deployment is transparent) 
val system = ActorSystem("MySystem") 

val greeter = system.actorSelection ("akka.tcp: //MySystem@machine2 :2552/user/greeter") 

greeter ! Greeting ("Sonny Rollins") 











Actor 之 间 最 终 会 构成 一 棵 树 ， 作 为 父亲 的 Actor 应 当 对 所 有 儿子 的 异常 失败 进行 处 理 (监管 ) 。Akka 给 出 了 简单 的 示例 ， 代 码 如 下 。 





class Supervisor extends Actor { 
override val supervisorStrategy = 
OneForOneStrategy (maxNrOfRetries = 10, withinTimeRange = 1 minute) { 


case _: ArithmeticException Resume 
case _: NullPointerException Restart 
case _: Exception Escalate 


} 
val worker = context.actorOf (Props [Worker] ) 
def receive = { 

case n: Int => worker forward n 


} 





Akka 的 更 多 信息 请 访问 官方 网 站 : http://akka.io/。 


2.AkkaUtils 

















AkkaUtils 是 Spark 对 Akka 相 关 API 的 又 一 层 封装 ， 这 里 对 其 常用 的 功能 进行 介绍 。 














(1) doCreateActorSystem 


功能 描述 : 创建 ActorSystem。 





private def doCreateActorSystem( 
name: String, 
host: String, 


port: Int, 

conf: SparkConf, 

securityManager: SecurityManager): (ActorSystem, Int) = { 
val akkaThreads = conf.getInt ("spark.akka.threads", 4) 


val akkaBatchSize = conf.getInt ("spark.akka.batchSize", 15) 
val akkaTimeout = conf.getInt ("spark.akka.timeout", 100) 
val akkaFrameSize = maxFrameSizeBytes (conf) 
val akkaLogLifecycleEvents = conf.getBoolean("spark.akka.logLifecycleEvents", false) 
val lifecycleEvents = if (akkaLogLifecycleEvents) "on" else "off" 
if (!akkaLogLifecycleEvents) { 
Option (Logger. getLogger ("akka.remote.EndpointWriter")) .map (1 => 1.setLevel (Level.FATAL) ) 
} 
val logAkkaConfig = if (conf.getBoolean ("spark.akka.logAkkaConfig", false)) "on" else "off" 
val akkaHeartBeatPauses = conf.getInt ("spark.akka.heartbeat.pauses", 6000) 
val akkaFailureDetector = 
conf.getDouble ("spark.akka.failure-detector.threshold", 300.0) 
val akkaHeartBeatInterval = conf.getInt ("spark.akka.heartbeat.interval", 1000) 
val secretKey = securityManager.getSecretKey () 
val isAuthOn = securityManager.isAuthenticationEnabled () 
if (isAuthOn && secretKey == null) { 
throw new Exception("Secret key is null with authentication on") 
} 
val requireCookie = if (isAuthOn) "on" else "off" 
val secureCookie = if (isAuthOn) secretKey else "" 
logDebug ("In createActorSystem, requireCookie is: " + requireCookie) 
val akkaConf = ConfigFactory.parseMap (conf.getAkkaConf.toMap[String, String]) .withFallback( 
ConfigFactory.parseString ( 
gunn 
akka.daemonic = on 
akka.loggers = [""akka.event.slf4j.S1f4jLogger""] 
akka.stdout-loglevel = "ERROR" 
akka.jvm-exit-on-fatal-error = off 
akka.remote.require-cookie = "SrequireCookie" 
akka.remote.secure-cookie = "$secureCookie" 
akka.remote.transport-failure-detector.heartbeat-interval = $akkaHeartBeat-Interval s 
akka.remote.transport-failure-detector.acceptable-heartbeat-pause = $akkaHeartBeatPauses s 
akka. remote. transport-failure-detector.threshold = $akkaFailureDetector 


akka.actor.provider = "akka.remote.RemoteActorRefProvider" 
akka.remote.netty.tcp.transport-class = "akka.remote.transport.netty.NettyTransport" 
akka.remote.netty.tcp.hostname = "$host" 


akka.remote.netty.tcp.port = $port 
akka.remote.netty.tcp.tcp-nodelay = on 
akka.remote.netty.tcp.connection-timeout = $akkaTimeout s 
akka.remote.netty.tcp.maximum-frame-size = ${akkaFrameSize}B 
akka.remote.netty.tcp.execution-pool-size = $akkaThreads 
akka.actor.default-dispatcher.throughput = $akkaBatchSize 
akka.log-config-on-start = $logAkkaConfig 
akka.remote.log-remote-lifecycle-events = $lifecycleEvents 
akka.log-dead-letters = $lifecycleEvents 
akka.log-dead-letters-during-shutdown = $lifecycleEvents 

vw stripMargin) ) 
val actorSystem = ActorSystem(name, akkaConf) 
val provider = actorSystem.asInstanceOf [ExtendedActorSystem] .provider 
val boundPort = provider.getDefaultAddress.port.get 
(actorSystem, boundPort) 








(2) makeDriverRef 


功能 描述 : 从 远 端 ActorSystem 中 查找 已 经 注册 的 某 个 Actor。 





def makeDriverRef (name: String, conf: SparkConf, actorSystem: ActorSystem): ActorRef = { 
val driverActorSystemName = SparkEnv.driverActorSystemName 
val driverHost: String = conf.get ("spark.driver.host", "localhost") 
val driverPort: Int = conf.getInt ("spark.driver.port", 7077) 
Utils.checkHost (driverHost, "Expected hostname") 
val url = s"akka.tcp://SdriverActorSystemName@$driverHost : $driverPort/user/$name" 
val timeout = AkkaUtils.lookupTimeout (conf) 
logInfo(s"Connecting to $name: $url") 
Await.result (actorSystem.actorSelection (url) .resolveOne (timeout), timeout) 





附录 C Jetty 


1.Jetty 简 介 





Jetty 是 一 个 开源 的 ， 以 Java 作 为 开发 语言 的 servlet 容 器 。 它 的 API 以 一 组 jar 包 的 形式 发 布 。Jetty 容 器 可 以 实例 化 成 一 个 对 象 ， 

















而 迅速 为 一 些 独立 运行 的 Java 应 











提供 网 络 和 web 服 务 。 要 为 Jetty 创 建 














servlet， 就 涉及 ServletContextHandler 的 API 使 用 。 示 例 代码 如 下 。 

















class HelloServlet extends HttpServlet { 
private static final long serialVersionUID = 1L; 
private String msg = "Hello World!"; 


protected void doGet (HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException { 


response 
response 
response 
response 


.setContentType ("text/html") ; 

.SetStatus (HttpServletResponse.SC_OK) ; 

-getWriter().println("<h1>" + msg + "</h1>"); 

-getWriter() .println("session=" + request.getSession (true) .getId()); 
} 


public static void main(String[] args) throws Exception { 
Server server new Server (8080) ; 
ServletContextHandler context new ServletContextHandler () ; 
context .setContextPath ("/") ; 
server. setHandler (context) ; 
// http://localhost:8080/hello 

















context.addServlet (new ServletHolder (new HelloServlet()), "/hello"); 
server.start(); 
server. join(); 

} 

如 果 想 更 深入 了 解 Jetty， 请 访问 官网 http://www.eclipse.org/jetty/。 

2.JettyUtils 

JettyUtils 是 Spark 对 于 Jetty 相 关 API 的 又 一 层 封装 ， 这 里 对 其 中 一 些 主 要 方法 进行 介绍 。 





(1) createServletHandler 





功能 描述 : 创建 以 给 定 路 径 为 前 级 的 请 求 的 响应 处 理 。 处 理 步骤 如 下 : 









































1) 调用 createServlet， 生 成 javax.servlet.http.HttpServlet 的 匿名 内 部 类 实例 。 此 实例 处 理 请 求实 际 是 使 用 servletParams 的 responder 
户 传 入 的 函数 参数 。 
2) 调用 重 载 的 createServletHandler 方 法 ， 生 成 org.eclipse.jetty.servlet.ServletHolder， 并 最 终生 成 ServletContextHandler。 











createServletHandler 的 实现 如 下 。 











: Responder， 此 Responder 类 型 发 生 隐 式 转换 ， 会 转换 为 














def createServletHandler[T <% AnyRef] ( 
path: String, 
servletParams: ServletParams([T], 
securityMgr: SecurityManager, 
basePath: String = ""): ServletContextHandler { 
createServletHandler (path, createServlet (servletParams, securityMgr), basePath) 


} 

type Responder[T] = HttpServletRequest => T 

class ServletParams[T <% AnyRef] (val responder: Responder [T], 
val contentType: String, 


val extractFn: T => String = (in: Any) => in.toString) {} 
def createServlet[T <% AnyRef] ( 

servletParams: ServletParams[T], 

securityMgr: SecurityManager): HttpServlet = { 
new HttpServlet { 


override def doGet (request: HttpServletRequest, response: HttpServletResponse) 
if (securityMgr.checkUIViewPermissions (request.getRemoteUser)) { 
response. setContentType ("%s; charset=utf-8". format (servletParams.contentType) ) 


{ 


5S}; 
response. setStatus (HttpServletResponse.SC_OK) 
val result = servletParams. responder (request) 
response.setHeader ("Cache-Control", "no-cache, no-store, must-revalidate") 
response.getWriter.println (servletParams .extractFn (result) ) 

} else { 
response. 
response 
response 

"User 


setStatus (HttpServletResponse.SC_UNAUTHORIZED) 

.setHeader ("Cache-Control", "no-cache, no-store, must-revalidate") 
.sendError (HttpServletResponse.SC_UNAUTHORIZED, 

is not authorized to access this page.") 


} 
} 
def createServletHandler ( 
path: String, 
servlet: HttpServlet, 
basePath: String): ServletContextHandler 
val prefixedPath = attachPrefix(basePath, path) 
val contextHandler = new ServletContextHandler 
val holder new ServletHolder (servlet) 
contextHandler.setContextPath (prefixedPath) 
contextHandler.addServlet (holder, "/") 
contextHandler 


{ 





(2) startlettyServer 
功能 描述 : 创建 以 给 定 路 径 为 前 缀 的 请 求 的 响应 处 理 。 处 理 步骤 如 下 : 


1) 将 SparkUI 中 的 全 部 handler 加 入 ContextHandlerCollection。 


























2) 如 果 使 








配置 spark.ui.filters 指 定 了 filter， 则 给 所 有 handler 增 加 filter。 











3) 调 





Utils 的 方法 startServiceOnPort， 最 终 回 





调 函 数 connect。 


startJettyServer 的 实现 如 下 。 





def startJettyServer ( 
hostName: String, 
port: Int, 
handlers: Seq[ServletContextHandler], 
conf: SparkConf, 
serverName: String = ""): ServerInfo { 
val collection = new ContextHandlerCollection 
collection.setHandlers (handlers.toArray) 
addFilters (handlers, conf) 
def connect (currentPort: Int): (Server, Int) { 
val server new Server (new InetSocketAddress (hostName, currentPort) ) 
val pool = new QueuedThreadPool 
pool .setDaemon (true) 
server .setThreadPool (pool) 


server. setHandler (collection) 
try { 

server.start () 

(server, server.getConnectors.head.getLocalPort) 
} catch { 

case e: Exception => 

server. stop () 

pool. stop () 

throw e 


} 


val (server, boundPort) = Utils.startServiceOnPort [Server] (port, connect, conf, serverName) 
ServerInfo (server, boundPort, collection) 


附录 D Metrics 


1.Metrics 简 介 


Metrics[] 是 codahale 提 供 的 第 三 方 测量 仓库 。Metrics 作 为 一 款 监控 指标 的 测量 类 库 ， 可 以 为 第 三 方 库 提 供 辅助 统计 信息 ， 还 可 以 将 测量 数据 发 送 给 Ganglia 和 Graphite， 以 提供 图 形 化 的 监 











Metrics 提 供 了 Gauge、Counter、Meter、Histogram、Timer 等 测量 工具 类 以 及 健康 检查 (health check) 功能 。 
2.MetricRegistry 


MetricRegistry 是 Metrics 提 供 的 测量 容器 ， 这 里 先 列 出 MetricRegistry 的 主要 结构 。 











public class MetricRegistry implements MetricSet { 
private final ConcurrentMap<String, Metric> metrics; 
private final List<MetricRegistryListener> listeners; 




















从 上 面 代码 可 以 看 出 ，MetricRegistry 中 会 缓存 各 种 测量 和 监听 器 。 下 面 对 MetricRegistry 中 的 一 些 方法 进行 介绍 。 


(1) notifyListenerOfAddedMetric 
































功能 描述 : 当 有 新 的 Metric 添 加 到 ConcurrentMap < String，Metric > metrics 时 ， 调 用 此 方法 。 根 据 Metric 的 子 接口 的 不 同 ， 调 用 不 同方 法 。 例 如 ，Gauge 则 调用 监听 器 的 onGaugeAdded; 
Counter 则 调用 监听 器 的 onCounterAdded; Histogram 则 调用 监听 器 的 onHistogramAdded。 






































private void notifyListenerOfAddedMetric (MetricRegistryListener listener, Metric metric, String name) { 
if (metric instanceof Gauge) { 
listener.onGaugeAdded(name, (Gauge<?>) metric); 
} else if (metric instanceof Counter) { 
listener.onCounterAdded (name, (Counter) metric); 
} else if (metric instanceof Histogram) { 
listener.onHistogramAdded (name, (Histogram) metric); 
} else if (metric instanceof Meter) { 
listener.onMeterAdded(name, (Meter) metric); 
} else if (metric instanceof Timer) { 
listener.onTimerAdded(name, (Timer) metric); 
} else { 
throw new IllegalArgumentException ("Unknown metric type: " + metric.getClass()); 





(2) onMetricAdded 



































功能 描述 : 当 有 新 的 Metric 添 加 到 ConcurrentMap < String, Metric > metrics 时 ， 调 用 此 方法 。 遍 历 调用 监听 器 缓存 List < MetricRegistryListener > listeners 中 的 所 有 监听 器 ， 调 用 
notifyListenerOfAddedMetric。 





private void onMetricAdded(String name, Metric metric) { 
for (MetricRegistryListener listener : listeners) { 
notifyListenerOfAddedMetric(listener, metric, name); 


} 





(3) register 


功能 描述 : 如 果 metric 的 类 型 是 Metric 并 且 Metric 缓 存 metrics: concurrent Map < String Metrics 中 还 没有 此 Metric， 则 将 它 添加 到 metrics; 如 果 Metric 的 类 型 是 MetricSet， 则 MetricSet 中 包含 的 
所 有 新 的 Metric 添 加 到 缓存 ConcurrentMap < String, Metric > metrics。 以 上 添加 过 程 都 伴随 onMetricAdded 的 调用 。 























public <T extends Metric> T register (String name, T metric) throws IllegalArgument-Exception { 
if (metric instanceof MetricSet) { 
registerAll (name, (MetricSet) metric); 


} else { 
final Metric existing = metrics.putIfAbsent (name, metric); 
if (existing == null) { 
onMetricAdded (name, metric); 
} else { 


throw new IllegalArgumentException("A metric named " + name + " already exists"); 
} 
} 
return metric; 
} 
private void registerAll (String prefix, MetricSet metrics) throws Illegal-ArgumentException { 


for (Map.Entry<String, Metric> entry : metrics.getMetrics().entrySet()) { 
if (entry.getValue() instanceof MetricSet) { 
registerAll (name (prefix, entry.getKey()), (MetricSet) entry.getValue()); 
} else { 


register (name (prefix, entry.getKey()), entry.getValue()); 
} 





[1] Metrics 是 测量 框架 的 名 称 ，Metric 是 其 中 一 个 类 。 


附录 E Hadoop word count 








这 里 主要 演示 Hadoop1.0 版 本 中 的 word count 例 子 ， 








于 和 Spark 中 的 实现 对 比 。 





package org.apache.hadoop.examples; 
import java.io. IOException; 
import java.util.Iterator; 
import java.util.StringTokenizer; 
import org.apache.hadoop. fs. Path; 
import org.apache.hadoop.io.IntWritable; 
import org.apache.hadoop.io.LongWritable; 
import org.apache.hadoop.io.Text; 
import org.apache.hadoop.mapred.FileInputFormat; 
import org.apache.hadoop.mapred.FileOutputFormat; 
import org.apache.hadoop.mapred.JobClient; 
import org.apache.hadoop.mapred.JobConf; 
import org.apache.hadoop.mapred.MapReduceBase; 
import org.apache.hadoop.mapred.Mapper; 
import org.apache.hadoop.mapred.OutputCollector; 
import org.apache.hadoop.mapred.Reducer; 
import org.apache.hadoop.mapred.Reporter; 
import org.apache.hadoop.mapred.TextInputFormat; 
import org.apache.hadoop.mapred.TextOutputFormat; 
public class WordCount { 
public static class Map extends MapReduceBase implements 
Mapper<LongWritable, Text, Text, IntWritable> { 
private final static IntWritable one new IntWritable (1); 
private Text word = new Text (); 
public void map(LongWritable key, Text value, 
OutputCollector<Text, IntWritable> output, Reporter reporter) 
throws IOException { 
String line value.toString(); 
StringTokenizer tokenizer new StringTokenizer (line) ; 
while (tokenizer.hasMoreTokens()) { 
word. set (tokenizer.nextToken () ) ; 
output.collect (word, one); 


} 
} 


public static class Reduce extends MapReduceBase implements 
Reducer<Text, IntWritable, Text, IntWritable> { 
public void reduce (Text key, Iterator<IntWritable> values, 
OutputCollector<Text, IntWritable> output, Reporter reporter) 
throws IOException { 
int sum = 0; 
while (values.hasNext()) { 
sum += values.next().get(); 
} 
output.collect (key, new IntWritable (sum)); 
} 
} 
public static void main(String[] args) throws Exception { 
JobConf conf = new JobConf (WordCount.class) ; 
conf .setJobName ("wordcount") ; 
conf .setOutputKeyClass (Text.class) ; 
conf.setOutputValueClass (IntWritable.class) ; 
conf.setMapperClass (Map.class) ; 
conf .setCombinerClass (Reduce.class) ; 
conf .setReducerClass (Reduce.class) ; 
conf .setInputFormat (TextInputFormat.class) ; 
conf .setOutputFormat (TextOutputFormat.class) ; 
FileInputFormat.setInputPaths (conf, new Path(args[0])); 
FileOutputFormat.setOutputPath (conf, new Path(args[1])); 
JobClient .runJob (conf) ; 





附录 F Commandutils 





























类 之 一 ， 所 以 有 必要 在 这 里 作 介 绍 。 如 果 不 太 关心 











CommandUtils 是 Spark 中 最 常用 的 工 实现 ， 也 不 影响 对 Spark 源 码 的 阅读 和 原理 的 学 习 。 我 们 要 介绍 的 方法 如 下 。 
(1) buildProcessBuilder 


功能 描述 : 基于 给 定 的 参数 创建 ProcessBuilder。 





def buildProcessBuilder ( 

command: Command, 

memory: Int, 

sparkHome: String, 

substituteArguments: String => String, 

classPaths: Seq[String] = Seq[String] (), 

env: Map[String, String] = sys.env): ProcessBuilder { 

val localCommand = buildLocalCommand(command, substituteArguments, classPaths, env) 
val commandSeg = buildCommandSeg(localCommand, memory, sparkHome) 
val builder new ProcessBuilder (commandSeq: _*) 
val environment = builder.environment () 
for ((key, value) <- localCommand.environment) { 

environment.put (key, value) 


} 
builder 





(2) buildLocalcommand 


功能 描述 : 通过 复制 ApplicationDescription 中 的 类 路 径 、 包 路 径 、 环 境 变 量 、Java 选 项 参数 等 信息 ， 在 本 地 创建 Command。 





private def buildLocalCommand ( 
command: Command, 
substituteArguments: String => String, 
classPath: Seq[String] = Seq[String] (), 
env: Map[String, String]): Command = { 


val libraryPathName 
val libraryPathEntries 


Utils. libraryPathEnvName 
command. 1libraryPathEntries 


val cmdLibraryPath = command.environment .get (libraryPathName) 

val newEnvironment = if (libraryPathEntries.nonEmpty && libraryPathName.nonEmpty) { 
val libraryPaths = libraryPathEntries ++ cmdLibraryPath ++ env.get (libraryPathName) 
command.environment + ((libraryPathName, libraryPaths.mkString(File.pathSeparator) ) ) 
else { 

command.environment. 

} 

Command ( 


} 


command.mainClass, 

command. arguments .map (substituteArguments) , 

newEnvironment, 

command.classPathEntries ++ classPath, 

Seq[String] (), // library path already captured in environment variable 
command. javaOpts) 


(3) buildCommandSeq 








功能 描述 : 用 于 构建 命令 行 参数 序列 。 








private def buildCommandSeq(command: Command, memory: Int, sparkHome: String): Seq[String] = { 
val runner = sys.env.get ("JAVA_HOME") .map(_ + "/bin/java") .getOrElse ("java") 
Seq(runner) ++ buildJavaOpts (command, memory, sparkHome) ++ Seq(command.mainClass) ++ 
command. arguments 





(4) buildJavaOpts 


功能 描述 : 依据 指定 的 内 存 大 小 、SPARK_JAVA_OPTS， 执 行 /bin/compute-classpath 的 sh 或 者 cmd 脚 本 计算 当前 环境 的 classPath， 依 据 javaVersion 设 置 -XX: MaxPermsize 等 构造 出 Java 选 项 。 





private def buildJavaOpts (command: Command, memory: Int, sparkHome: String): Seq[String] = { 

val memoryOpts = Seq(s"-Xms${memory}M", s"-Xmx${memory}M") 

// Exists for backwards compatibility with older Spark versions 

val workerLocalOpts = Option (getenv ("SPARK JAVA OPTS")) .map (Utils.splitCommandString) 
.getOrElse (Nil) 

if (workerLocalOpts.length > 0) { 
logWarning ("SPARK JAVA OPTS was set on the worker. It is deprecated in Spark 1.0.") 
logWarning ("Set SPARK LOCAL DIRS for node-specific storage locations.") 





// Figure out our classpath with the external compute-classpath script 
val ext = if (System.getProperty("os.name") .startsWith ("Windows")) ".cmd" else ".sh" 
val classPath = Utils.executeAndGetOutput ( 
Seq(sparkHome + "/bin/compute-classpath" + ext), 
extraEnvironment = command.environment) 
val userClassPath = command.classPathEntries ++ Seq(classPath) 
val javaVersion = System.getProperty ("java.version") 
val permGenOpt = if (!javaVersion.startsWith("1.8")) Some ("-XX:MaxPermSize=128m") else None 
Seq("-cp", userClassPath.filterNot (_.isEmpty) .mkString(File.pathSeparator)) ++ 
permGenOpt ++ workerLocalOpts ++ command.javaOpts ++ memoryOpts 





附录 G Netty 


1.Netty 简 介 


Netty 是 一 个 NIO 客 户 端 服务 器 框架 ， 使 得 开发 高 性 能 、 高 可 靠 性 的 网 络 服务 器 和 客户 端 程序 变 得 快速 且 容 易 。 它 极 大 地 简化 和 优化 了 网 络 编程 ， 如 TCP 和 UDP 套 接 字 服务 器 。 




















“快速 和 容易 ”并 不 意味 着 应 用 程序 会 有 难 维护 和 性 能 低 的 问题 。Netty 是 一 个 精心 设计 的 框架 ， 它 从 许多 协议 的 实现 中 吸收 了 很 多 经 验 ， 比 如 FTP、SMTP、HTTP 以 及 多 种 多 样 的 二 进 制 和 基于 文本 的 
传统 协议 。 因 此 Netty 在 不 降低 开发 效率 、 性 能 、 稳 定性 、 灵 活性 的 情况 下 ， 已 经 成 功 地 找到 了 解决 方法 。 





有 关 Netty 的 更 多 内 容 请 访问 Netty 官 网 http://netty.io/。 
2.NettyUtils 


NettyUtils 是 Spark 对 于 Netty API 的 又 一 层 封 装 ， 这 里 对 NettyUtils 中 的 主要 方法 进行 介绍 。 





(1) createThreadFactory 











功能 描述 : 创建 线程 工厂 ， 此 工厂 生成 的 线程 都 使 用 给 定 的 前 缀 名 threadPoolPrefix+ "- "+ 数字 的 格式 命名 。 








public static ThreadFactory createThreadFactory (String threadPoolPrefix) { 
return new ThreadFactoryBuilder () 
.setDaemon (true) 
.setNameFormat (threadPoolPrefix + "-%d") 
-build(); 





(2) createEventLoop 


功能 描述 : 根据 参数 IOMode， 创 建 Netty 的 EventLoopGroup。 








public static EventLoopGroup createEventLoop(IOMode mode, int numThreads, String threadPrefix) { 
ThreadFactory threadFactory = createThreadFactory (threadPrefix) ; 
switch (mode) { 


case NIO: 

return new NioEventLoopGroup (numThreads, threadFactory) 7 
case EPOLL: 

return new EpollEventLoopGroup (numThreads, threadFactory) ; 
default: 

throw new IllegalArgumentException ("Unknown io mode: " + mode); 





(3) getClientChannelClass 





正确 的 客户 端 SocketChannel。 





回 








功能 描述 : 根据 参数 IOMode， 返 





public static Class<? extends Channel> getClientChannelClass (IOMode mode) { 
switch (mode) { 
case NIO: 
return NioSocketChannel.class; 
case EPOLL: 
return EpollSocketChannel.class; 
default: 
throw new IllegalArgumentException ("Unknown io mode: " + mode); 





(4) getServerChannelClass 





功能 描述 : 根据 参数 IOMode， 返 回 正确 的 服务 端 SocketChannel。 





回 











public static Class<? extends ServerChannel> getServerChannelClass (IOMode mode) { 
switch (mode) { 

case NIO: 
return NioServerSocketChannel.class; 

case EPOLL: 
return EpollServerSocketChannel.class; 

default: 
throw new IllegalArgumentException ("Unknown io mode: " + mode) ; 





(5) createFrameDecoder 














功能 描述 : 创建 一 个 LengthFieldBasedFrameDecoder。LengthFieldBasedFrameDecoder 的 5 个 参数 分 别 代表 frame 的 最 大 长 度 、 长 度 字段 的 偏 移 量 、 长 度 字 段 的 字 节 数 、 需 要 排除 的 长 度 字 段 的 字 
节 数 、 长 度 字 段 的 初始 长 度 。 所 以 创建 的 LengthFieldBasedFrameDecoder 的 前 8 字 节 代表 frame 的 长 度 。LengthFieldBasedFrameDecoder 通 常会 被 设置 到 SocketChannel 的 管道 中 ， 在 所 有 Decoder 之 
前 使 用 。 

















public static ByteToMessageDecoder createFrameDecoder() { 
return new LengthFieldBasedFrameDecoder (Integer.MAX VALUE, 0, 8, -8, 8); 





(6) getRemoteAddress 


功能 描述 : 返回 Channel 的 远 端 地 址 。 





public static String getRemoteAddress (Channel channel) { 
if (channel != null && channel.remoteAddress() != null) { 
return channel. remoteAddress () .toString(); 


} 


return "<unknown remote>"; 





(7) createPooledByteBufAllocator 























功能 描述 : 创建 一 个 汇集 ByteBuf 但 对 本 地 线程 缓存 禁用 的 分 配器 。 为 什么 要 对 本 地 线程 缓存 禁用 ? 因为 ByteBuf 都 是 由 事件 循环 线程 分 配 ， 所 以 线程 本 地 缓存 对 
ByteBuf 的 释放 却 是 由 Executor 线 程 ， 而 不 是 事件 循环 线程 来 完成 。 本 地 线程 缓存 经 常会 延迟 ByteBuf 的 回收 ， 导 致 巨大 的 内 存 消耗 。 





























FTransportClient 是 禁用 的 。 但 是 


























public static PooledByteBufAllocator createPooledByteBufAllocator ( 
boolean allowDirectBufs, 
boolean allowCache, 
int numCores) { 
if (numCores 0) { 
numCores Runtime.getRuntime () .availableProcessors (); 





} 
return new PooledByteBufAllocator ( 
allowDirectBufs && PlatformDependent.directBufferPreferred(), 
Math.min (getPrivateStaticField("DEFAULT_NUM HEAP ARENA"), numCores), 
Math.min (getPrivateStaticField ("DEFAULT NUM DIRECT ARENA"), allowDirectBufs ? numCores : 0), 
getPrivateStaticField("DEFAULT_PAGE SIZE"), — 四 
getPrivateStaticField ("DEFAULT MAX ORDER"), 


allowCache ? getPrivateStaticField("DEFAULT_TINY CACHE SIZE") 3: Qi 
allowCache ? getPrivateStaticField("DEFAULT_SMALL CACHE SIZE") : 0, 
allowCache ? getPrivateStaticField("DEFAULT_NORMAL CACHE SIZE") : 0 





(8) getPrivateStaticField 











功能 描述 : 用 于 获得 Netty 的 静态 属性 值 。 

















private static int getPrivateStaticField(String name) { 
try { 
y Field f = PooledByteBufAllocator.DEFAULT.getClass () .getDeclaredField (name) ; 
f.setAccessible (true); 
return f.getInt (null); 
} catch (Exception e) { 
throw new RuntimeException (e); 


} 





(9) askWithReply 











功能 描述 : 使 用 ActorSystem 向 ActorRef 发 送 任何 消息 。 发 送 每 条 消息 的 最 大 尝试 次 数 是 3 次 ， 间 隔 为 3000 毫 秒 ， 请 求 超时 时 间 是 30 秒 。 














def askWithReply[T] ( 
message: Any, 
actor: ActorRef, 
maxAttempts: Int, 
retryInterval: Int, 
timeout: FiniteDuration): T = { 


if (actor == null) { 
throw new SparkException ("Error sending message as actor is null "+ 
"[message = " + message + "]") 


} 
var attempts = 0 
var lastException: Exception = null 
while (attempts < maxAttempts) { 
attempts += 1 
try { 
val future = actor.ask (message) (timeout) 
val result = Await.result (future, timeout) 
if (result == null) { 
throw new SparkException ("Actor returned null") 
} 
return result.asInstanceOf [T] 
} catch { 
case ie: InterruptedException => throw ie 
case e: Exception => 
lastException = e 
logWarning ("Error sending message in " + attempts + " attempts", e) 
} 
Thread. sleep (retryInterval) 


throw new SparkException ( 
"Error sending message [message = " + message + "]", lastException) 





附录 H ”源码 编译 错误 





笔者 在 编译 过 程 中 遇 到 很 多 问题 ， 这 里 列 出 需要 注意 的 6 个 主要 问题 。 





(1) jar 包 依赖 错误 


出 现 很 多 maven 的 jar 包 依赖 错误 ， 例 如 : 





ArtifactTransferException: Failure to transfer asm:asm-commons:jar:3.1 
from?http: //mvnrepo.taobao.ali.com/mvn/repositorywas cached in the local repository, resolution will not be reattempted until the update interval of central has elapsed or upds 








类 似 这 样 的 错误 虽然 多 ， 但 都 很 好 解决 ， 拿 这 个 例子 来 说 ， 只 需要 去 本 地 maven 仓 库 下 的 asm\asm-commons 文 件 夹 下 ， 将 3.1 这 个 文件 夹 删除 ， 然 后 在 Eclipse 里 右 击 项 目 spark-hive- 
thriftserver_2.10， 然 后 选择 Maven 菜 单 下 的 update project 更 新 jar 包 即 可 解决 。 


(2) 单元 测试 错误 





编译 时 报错 : http://cwiki.apache.org/confluence/display/MAVEN/MojoFailureException: Failed to execute goal org.apache.maven.plugins: maven-surefire-plugin: 2.10: 


test (default-test) on project hello: There are test failures. 














如 果 单 独 进 行 spark-streaming_2.10 的 单元 测试 ， 全 部 是 通过 的 ， 不 得 已 只 能 在 spark-streaming_2.10 下 的 pom 里 找到 如 下 这 段 配 置 ， 修 改 为 ture， 当 Scala 单 测 失 败 时 依然 能 编译 通过 ， 如 图 H-1 所 











(3) Scala 版 本 问题 
出 现 Scala 版 本 问题 ,错误 信息 如 下 : 
<plugin> 
<groupld>org.scalatest</groupld> 


<artifactId>scalatest-maven-plugin</artifactId> 
<configuration> 


<testFailurelgnore>true</testFailurelgnore> 
</configuration> 
</plugin> 














H-1 spark-streaming_2.10 项 目的 pom 修 改 








can't expand macros compiled by previous versions of 
ScalaSparkSinkSuite.scala/ 


spark-streaming-flume-sink_2.10/src/test/scala/org/apache/spark/streaming/flume/sinkline 75Scala Problem 











意思 是 Scala 版 本 不 对 ， 解 决 方式 : 单 击 Window 菜 单 ， 然 后 选择 Preferences 子 菜单 ， 在 弹出 的 对 话 框 中 选择 Scala 下 的 Installations， 选 择 合适 的 Scala 版 本 即 可 ， 如 图 H-2 所 示 。 











type filter text 


General a 
Ant Scala: 2.11.6 (built-in) 
Scala: 2.10.5 (built-in) 


Data M nt 
AUN Scala:2.10.4: 2.10.4 


Install/Update 
Java 
Java EE 


Java Persistence 


> 
> 
b 
b Help 
> 
> 
> 
> 


JavaScript 
Maven 
Mylyn 
Play 
Plug-in Development 
Remote Systems 
Run/Debug 
Scala 
Compiler 
Debug 
b Editor 
Installations 
Logging 
Resources 
b Scala Worksheet 
> Server 
> Team 





图 H-2 选择 合适 的 Scala 版 本 
(4) scalastyle-maven-plugin 修 改 


编译 spark-catalyst_2.10 时 ， 出 现 错误 : 





http: //cwiki.apache.org/confluence/display/MAVEN/MojoFailureException:Failed to execute goal 
org.scalastyle:scalastyle-maven-plugin:0.4.0:check (default) on project。 具 体 信息 有 Failed during scalastyle execution: Unable to find configuration file at location scalastyle-c: 





意思 是 找 不 到 scalastyle-config.xml 了 ， 在 spark 源 码 的 根 目录 下 有 scalastyle-config.xml 文 件 ， 但 是 编译 时 的 路 径 不 对 ， 在 父 项 目 spark 下 的 pom 文 件 中 找到 这 段 scalastyle-maven-plugin 的 配置 ， 将 
其 中 的 配置 改 为 scalastyle-config.xml 所 在 的 路 径 ， 如 图 H-3 所 示 。 





<plugin> 

<groupId>org.scalastyle</groupId> 

<artifact1d>Efa pee Bees ase Baste /artifactid> 

<version>@.4.0</version> 

<contiguration> 
<verbose>false< /verbose> 
<failOnViolation>true</faildnViolation> 
<includeTestSourceDirectory>false</includeTestSourceDirectory> 
<failOnWarning>false</failOnWarning> 
ésourceDirectory>${basedir}/src/main/scala</sourceDirectory> 


<contigLocation>D: \git\spark/scalastyle-config.xml</contiglocation> 


<outputFile>D:\git\spark/scalastyle-output.xml</outputFile> 
<output Encoding >UTF-&</outputEncoding> 
</configuration> 
<executions> 
éexecution> 
<phase>package< / phase> 
<goals> 
<goal>check< /goal> 
</goals> 
</execution> 
</executions> 
</plugin> 





图 H-3 修改 scalastyle-configxml 的 路 径 
(5) jar 包 言 眼 问题 
起 名 叫 盲 眼 问题 ， 是 因为 jar 包 就 在 那里 ， 可 是 项 目 会 报 找 不 到 这 个 jar 包 的 错误 ， 比 如 笔者 本 地 的 tachyon 的 jar 包 就 找 不 到 了 ， 如 图 H-4 所 示 。 


Ti Properties for spark-sql_2.10 "nT il = | 


type filter text! | | © Build path entry is missing: ../../lib_managed/jars/tachyon-0.5.0jar ee 


JARs and class folders on the build path: 


| 

b $ selenium-safari-driver-2.42.2,jer - .YAMib_manad 习 Add JARS 
selenium-support-2.42.2.jar - ..\..\lib_managed\ 
serializer-2.7.Ljar - ..\..\lib_managed\jars Add External JARs... 


slf4j-api-1.7.10jar - ..\..\lib-managed\jars 
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Git 
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> Java Code Style 
b Java Compiler 
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> Java Editor 
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Javadoc Location 







































































» fae sH#4j-log4j12-1.7.10jar - ..\.\lib_managed\jars 
D sy w SNappy-java-1.1.1.7 Jar - ..\..\lib.managed\bund 
Play2 » (oe stream-2.7.0jar - ..\.\lib_managec\jars | 
Project Facets > Ae tachyon-0.5.0.jar - ..\..\lib_managed\jars (missin 
Project References » fag tachyon-client-0.5.0jar - ..\..\lib_managed\jars 
Run/Debug Settings ， (oe test-interface-O.5,jar - ..\..\lib_managed\jars 
Scala Compiler > foe test-interface-1.0,jar - ..\..\lib_managed\jars | Edit... | 
Scala Formatter b le uncommons-maths-1.2.2a,jar -..\..\libimanagec |- — ~- | | 
Scala Organize Imports b (ae unused-1.0.0jar - ..\..\lib_managed\jars Remove | | 
b Task Repository » 四 webbit-0.4.14,jar - ..\..\lib_managed\jers 
Task Tags ;局 xalan-2.7.Ljar - ..\..\ib_managed\jars p | i | 
» Validation p (ae xercesImpl-2.11.0,jar - ..\..\lib_managed\jars 
WikiText ， _xml-avis-1.4.0Liar - ..\.Alib managed\iars 国 





























图 H-4 ”jar 包 育 眼 问题 


解决 起 来 很 简单 ， 只 需要 将 此 jar 包 依赖 删除 ， 重 新 添加 一 遍 即 可 。 
(6) 项 目 间 依 赖 言 眼 


Spark 各 个 项 目 间 会 存在 依赖 关系 ， 比 如 spark-assembly_2.10 就 依赖 spark-bagel 2.10、spark-core 2.10、spark-graphx_2.10、spark-mllib 2.10、spark-sql_2.10、spark-streaming_2.10 等 项 
目 。 可 是 spark-assembly_2.10 居 然 找 不 到 这 些 依赖 的 项 目 ， 会 出 现 图 H-5 中 的 错误 。 


Description 
4 © Java Build Path Problems (53 items) 
@ Project 'spark-assembly_2.10° is missing required Java project: 'spark-bagel' 


Project 'spark-assembly_2.10' is missing required Java project: 'spark-core’ 


Project ‘spark-assembly_2.10° is missing required Java project: 'spark-graphx' 
Project ‘spark-assembly_2.10° is missing required Java project: 'spark-mllib’ 
Project ‘spark-assembly_2.10" is missing required Java project: ‘spark-repl’ 
Project ‘spark-assembly_2.10' is missing required Java project: 'spark-sq|' 
Project ‘spark-assembly_2.10° is missing required Java project: ‘spark-streaming' 
Project 'spark-bagel_2.10' is missing required Java project: ‘spark-core' 





图 H-5 项 目 间 依赖 育 眼 


打开 spark-assembly_2.10 的 build path 查 看 ， 如 图 H-6 所 示 。 





= | © les 





[type filter text 





b Resource 
Builders 
Git Required projects on the build path: 
Java Build Path b {© spark-bagel (missing) 

> Java Code Style > e spark-core (missing) 

Java Compiler D = spark-graphx (missing) 

Java Editor > b> spark-mllib (missing) 
Javadec Location 名 spark-repl (missing) 

Maven p he spark-sql (missing) 

Play2 > BB spark-streaming (missing) 
Project Facets 





Project References 
Run/Debug Settings 
Scala Compiler 

Scala Formatter 

Scala Organize Imports 


Task Repository 
Task Tags 
Validation 

Wikil ext 











图 H-6 ”spatk-assembly_2.10 依 赖 的 项 目 








spark-assembly_2.10 没 找到 依赖 的 项 目 ， 可 能 是 因为 导入 Spark 的 时 候 ， 项 目 名 称 改变 的 原因 ， 不 过 解决 起 来 还 是 很 简单 的 ， 将 这 些 项 目 依赖 删除 ， 重 新 添加 进来 即 可 ， 如 图 H-7 所 示 。 














Properties for spark-essembly_2,10 


[type filter text 


bp 





Resource 
Builders 

Git 

Java Build Path 
Java Code Style 


> Java Compiler 


Java Editor 
Javadoc Location 


> Maven 


Play2 

Project Facets 
Project References 
Run/Debug Settings 
Scala Compiler 
Scala Formatter 
Scala Organize Imports 
Task Repository 
Task Tags 
Validation 

WikiTest 





Java Build Path 


Required projects on the build $ 


b © spark-bagel_2.10 
b © spark-core_2.10 

> BB spark-graphx_2.10 
b @ spark-milib_2.10 
b © spark-repl_2.19 

> & spark-sql_2.10 


> & spark-streaming_2.10 





© 


图 H-7 重新 编辑 spatk-assembly_2.10 依 赖 的 项 目 


> spark-examples_2.10 


spark-ganglia-lgpl_2.10 
spark-hive_2.10 
spark-hive-thrittserver_2.10 
spark-network-common_2.10 
spark-network-shuffle_2.10 
spark-network-yarn_2.10 
spark-streaming-flume_2.10 
spark-streaming-flume-sink_2.10 
spark-streaming-kafka_2.10 
spark-streaming-kafka-assembly 2.10 
sbark-streamina-kinesis-asl 2.10 











